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REFERENCIAS BIBLIOGRÁFICAS 


PRESENTACIÓN 


El nuevo proceso de formación profesional de maestrías en la Universidad 
Técnica Luis Vargas Torres de Esmeraldas UTELVT emerge exigido por la 
contemporaneidad que destaca el cambio en el proceder pedagógico al 
reconocer al estudiante como identidad cultural diversa, poseedora de su 
propia historia de saberes, experiencias, cosmovisiones, valores, autonomía 
y capacidades que debidamente encausadas potencian su gestión de 
innovación y creación de sus conocimientos. 


Por consiguiente, el sujeto social que aprende, constituye la centralidad del 
par dialéctico enseñanza -aprendizaje, proceso docente educativo que sitúa 
la construcción del conocimiento científico en los contextos de una práctica 
pedagógica transformadora, desarrolladora y dinámica que rescata el poder 
de las relaciones que subyacen entre conceptos, categorías y dimensiones 
como eslabones que transitan a nuevas esencialidades de estadios 
superiores del pensamiento. 


El nuevo saber que se construye entonces, es el resultado del correcto 
establecimiento de relaciones entre entes matemáticos mediadores de 
nuevas cualidades que en el caso del objeto de estudio de la matemática 
devienen de una práctica en ascenso que alcanza profundidad en la lógica 
dialéctica de la espiral del conocimiento que resulta de la sistematización de 
la experiencia. 


La fundamentación teórica, epistemológica y ontológica del proceso de 
construcción del conocimiento dinamizado desde las tecnologías de la 
información y la comunicación permite valorar la complementariedad de la 
investigación cualitativa y cuantitativa; componentes que son objeto de 
estudio en este módulo de la en Educación Mención Enseñanza Aprendizaje, 
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lo que implica desde los cualitativo del análisis interpretativo de la realidad 
valorar la importancia de los métodos de contrastación de hipótesis 
estadísticas para corroborar la pertinencia e impacto de las investigaciones. 


El estudio del módulo Métodos Estadisticos Aplicados a la Investigación 
contempla el desarrollo de tres unidades, las que se complementan y 
dimensionan como estructura sistémica y revelan su funcionalidad en la 
construcción del conocimiento por parte del sujeto que aprende. 


10 


OBJETIVO DEL MÓDULO 
Analizar las dimensiones de la investigación cualitativa y cuantitativa desde 


un enfoque integrador y desarrollador del pensamiento, la valoración de la 
importancia de la apropiación, uso y aplicación de los métodos de 
contrastación de hipótesis estadísticas para corroborar la pertinencia de la 
metodología en la construcción del conocimiento, productos de la 
sistematización de la experiencia que se consolida como cultura en el sujeto 


que aprende. 


METODOLOGÍA DEL MÓDULO 
La metodología que provoca el cambio y transformación de la práctica que se 


sustenta en el módulo, es la investigación acción, la sistematización como 
método de construcción del conocimiento, la holística-dialéctica que impulsa 
ascender en niveles de esencialidad en la espiral del saber, la sistémica- 
estructural-funcional de una visión holística y la inducción-deducción para 


precisar las síntesis y análisis del repensar, construir, innovar y crear. 


FORMA DE EVALUACIÓN DEL MÓDULO 
La forma es cuantitativa y cualitativa se dinamiza en la resolución de tares y 


problemas que conllevan la aplicación de métodos de contrastación de 
hipótesis, productos que se entregan por parte del estudiante de maestría en 
el tiempo que precisa el desarrollo del módulo. Sumativamente evalúa 64 


horas de trabajo productivo-mediado y 20 horas de trabajo autónomo. 
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La unidad 1: contiene los fundamentos epistemológicos, teóricos y 
ontológicos de la investigación cualitativa y cuantitativa, evalúa 16 horas de 


trabajo mediado y 5 horas de trabajo autónomo. 


La unidad 2: desarrolla las habilidades y uso de la estadistica descriptiva e 
inferencial en la aplicación de los métodos de contrastación de hipótesis para 
la resolución de tareas, problemas y toma de decisiones, evalúa 32 horas de 


trabajo productivo mediado y 10 horas de trabajo autónomo. 


La unidad 3: se orienta a la aplicación de pruebas no paramétricas en la 
resolución de tareas y problemas, evalúa 16 horas de trabajo productivo y 5 


hora de trabajo autónomo. 
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DESARROLLO DE LOS CONTENIDOS DEL MÓDULO 
UNIDAD 1: INVESTIGACIÓN CUALITATIVA-CUANTITATIVA 
FUNDAMENTOS EPISTEMOLOGICOS TEORICOS Y PRÁCTICOS 


OBJETIVO ESPECÍFICO DE LA UNIDAD 1: 


Desarrollar la capacidad integradora del uso y aplicación de la 
investigación cualitativa-cuantitativa desde una perspectiva integral, 
funcional y sistémica de la producción del conocimiento científico. 


CONTENIDOS MÍNIMOS DE LA UNIDAD 4: 

1.1. Diferencias entre la investigación cuantitativa y cualitativa. 
1.2. Metodología cualitativa. 

1.3. Metodología cuantitativa. 

1,4, Momento 1: La realidad fáctica. 

1.5. Momento 2: El diseño y la sistematización de la investigación. 
LOGROS DE LA UNIDAD 1: 


Interpreta y comprende las etapas de la investigación cualitativa- 
cuantitativa del diseño de la investigación y de la sistematización del 
informe. 


Descubre el entramado de relaciones que implica el ascenso desde el 
dato fáctico a lo concreto pensado del proceso de construcción del 
conocimiento. 
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Identifica las etapas de la investigación en la que se concreta lo 
cualitativo-cuantitativo de la producción científica. 


TAREAS DE LA UNIDAD 1: 


1. Elabore un organizador gráfico del tema investigación cualitativa- 
cuantitativa, fundamentos epistemológicos teóricos y prácticos. 


2. Elabore un video del tema con una duración de 3 minutos. 


3. Socializar de manera oral con argumentos teóricos y 
epistemológicos el organizador gráfico 


EVALUACIÓN DE LA UNIDAD 4: 


Construcción de organizador | a+b+c= 10 
gráfico: atb= 8 
a. Redes semánticas. c=6 
b. Relaciones cruzadas 
c. Derivación de 4to 
orden 
Análisis a. Secuencia lógica | a+b+c= 10 
desde el organizador | a+b= 8 
gráfico. c=6 
b. Discurso claro y 
pertinente. 
c. Concreción y 
ejemplos 
aplicaciones 


Búsqueda de información a. Mucho atb+c= 10 
científica actualizada b. Poco a 8 
c. Nada 


Uso y aplicación de métodos a. Mucho son 
científicos y empíricos b. Poco atb= 8 
c. Nada c= 6 
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1. INVESTIGACIÓN CUALITATIVA-CUANTITATIVA FUNDAMENTOS 
EPISTEMOLOGICOS Y TEORICOS 


1.1. Diferencias entre la investigación cuantitativa y cualitativa. 


La investigación cuantitativa, es aquella en la que se recogen, procesan y 
analizan datos cuantitativos sobre variables, implica que el dato se convierta 


en información. 


La investigación cuantitativa, trata de determinar la fuerza de asociación o 
relación entre variables, así como la generalización y objetivación de los 
resultados a través de una muestra. De aquí se puede hacer inferencia a una 
población de la cual esa muestra procede. Más allá del estudio de la 
asociación o la relación pretende, también, hacer inferencia que explique por 


qué las cosas suceden o no de una forma determinada 


Por consiguiente, los datos cuantitativos sobre variables son: listado, 
cantidades, números; mientras que la información connota elementos que va 
más allá de un mero listado de datos organizados como resultado y están en 
total consonancia con las variables que se declararon desde el principio y los 
resultados obtenidos brindan una realidad específica a la que estos están 


sujetos. 


La investigación cualitativa evita la cuantificación. De ahí que, los 
investigadores cualitativos hacen registros narrativos de los fenómenos que 


son estudiados mediante técnicas como: 
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e La observación. 

= La entrevista. 

= La revisión de documentos o análisis documental. 

=  Elestudio de caso. 

= Los grupos focales. 

= Los cuestionarios. 

En el caso de la observación, el investigador tiene una oportunidad única de 
obtener información que en otros casos no se logra y que pueden influir en 
los resultados. Mediante esta técnica, que en la mayoría de los casos se 
utiliza unida a la entrevista, se captan mensajes o ideas que pueden ser 
omitidas, ya sea voluntaria o involuntariamente por parte del investigado. A 
menudo las personas emiten gestos o presentan actitudes que van en contra 


de lo que están diciendo. 


La entrevista, permite recabar datos; se define como una conversación que 
se propone un fin determinado distinto al simple hecho de conversar, tiene 
como propósito obtener información en relación con un tema determinado; se 
busca que la información recabada sea lo más precisa posible; se pretende 
conseguir los significados que los informantes atribuyen a los temas en 


cuestión. 


Mediante la revisión de documentos, los investigadores generalmente 


obtienen la mayor cantidad de datos. Esta es una de las técnicas que más se 
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utilizan, unido al empleo de los cuestionarios. 


El estudio de casos, es una estrategia de investigación dirigida a comprender 
las dinámicas presentes en contextos singulares, la cual podría tratarse del 
estudio de un único caso o de varios casos, combinando distintos métodos 
para la recogida de evidencia cualitativa y/o cuantitativa con el fin de 
describir, verificar o generar teoría. Chetty (1996) indica que el método de 


estudio de caso es una metodología rigurosa que: 


e Es adecuada para investigar fenómenos en los que se busca dar 
respuesta a cómo y por qué ocurren. 

e Permite estudiar un tema determinado. 

e Es ideal para el estudio de temas de investigación en los que las teorías 
existentes son inadecuadas. 

e Permite estudiar los fenómenos desde múltiples perspectivas y no desde 
la influencia de una sola variable. 

e Permite explorar en forma más profunda y obtener un conocimiento más 
amplio sobre cada fenómeno, lo cual permite la aparición de nuevas 
señales sobre los temas que emergen, y 

e Juega un papel importante en la investigación, por lo que no debería ser 
utilizado meramente como la exploración inicial de un fenómeno 


determinado. 
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Con la técnica de los grupos focales el investigador, al seleccionar grupos de 
personas con características similares, puede dirigir el tema de discusión por 
la vía más conveniente para el estudio; sin que se presenten muchos 


problemas de discordancia. 


Además, al estar todos los integrantes del grupo expuestos, e intercambiando 
entre sí, se puede lograr que las personas más tímidas se abran con sus 


opiniones y comentarios, enriqueciendo así la información de los resultados. 


Un cuestionario es, por definición, el instrumento estandarizado empleado 
para la recogida de datos durante el trabajo de campo de algunas 
investigaciones cuantitativas y cualitativas, fundamentalmente, las que se 
llevan a cabo con metodologías de encuestas. En pocas palabras, se podría 
decir que es la herramienta que permite al científico social plantear un 
conjunto de preguntas para recoger información estructurada sobre una 
muestra de personas, empleando el tratamiento cuantitativo y agregado de 
las respuestas para describir a la población a la que pertenecen y/o 


contrastar estadísticamente algunas relaciones entre medidas de su interés. 


Así, si el cuestionario es la técnica o instrumento empleado, la metodología 
de encuestas es el conjunto de pasos organizados para su diseño y 
administración, y para la recogida de los datos obtenidos. La distinción es 


importante, a pesar de que no es infrecuente encontrar un cierto intercambio 
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entre estos términos, empleando la palabra encuesta para referirse también a 


un cuestionario específico. 


La diferencia fundamental entre ambas metodologías es que la cuantitativa 
estudia la asociación o relación entre variables cuantificadas y la cualitativa lo 


hace en contextos estructurales y situacionales. 


La investigación cualitativa trata de identificar la naturaleza profunda de las 
realidades, su sistema de relaciones, su estructura dinámica. La investigación 
cuantitativa trata de determinar la fuerza de asociación o correlación entre 
variables, la generalización y objetivación de los resultados a través de una 
muestra para hacer inferencia a una población de la cual toda muestra 
procede. Tras el estudio de la asociación o correlación pretende, a su vez, 
hacer inferencia causal que explique por qué las cosas suceden o no de una 


forma determinada. 


La investigación científica cuando es concebida como una totalidad encausa 
la posibilidad de desarrollar dos enfoques importantes: el cualitativo y el 
cuantitativo, en el primero se entiende que la cantidad es parte de la 
cualidad, además de darse mayor atención a lo profundo de los resultados y 
no de su generalización; mientras que en el enfoque cuantitativo, lo 
importante es la generalización o universalización de los resultados de la 


investigación. puesto que lo cualitativo o cuantitativo son enfoques de la 
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investigación científica, y ambos pueden ser usados en una misma 


investigación, interaccionando sus metodologías. 


1.2. La metodología cualitativa. 
Como indica su propia denominación, tiene como objetivo la descripción de 


las cualidades de un fenómeno. Busca un concepto que pueda abarcar una 
parte de la realidad. No se trata de probar o de medir en qué grado una cierta 
cualidad se encuentra en un cierto acontecimiento dado, sino de descubrir 
tantas cualidades como sea posible. En investigaciones cualitativas se debe 
hablar de entendimiento en profundidad en lugar de exactitud: se trata de 


obtener un entendimiento lo más profundo posible. 


No es hasta la década del 60 que las investigaciones de corte cualitativo 
resurgen como una metodología de primera línea, principalmente en Estados 
Unidos y Gran Bretaña. A partir de este momento, en el ámbito académico e 
investigativo hay toda una constante evolución teórica y práctica de la 


metodología cualitativa. 


Dentro de las características principales de esta de metodología, se 


mencionan: 


e La investigación cualitativa es inductiva. 
e Tiene una perspectiva holística, esto es que considera el fenómeno 


como un todo. 
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e Se trata de estudios en pequeña escala que solo se representan a sí 
mismos 

e Hace énfasis en la validez de las investigaciones a través de la 
proximidad a la realidad empírica que brinda esta metodología. 

e No suele probar teorías o hipótesis. Es, principalmente, un método de 
generar teorías e hipótesis. 

e No tiene reglas de procedimiento. El método de recogida de datos no se 
especifica previamente. Las variables no quedan definidas 
operativamente, ni suelen ser susceptibles de medición. 

e La base está en la intuición. La investigación es de naturaleza flexible, 
evolucionaría y recursiva. 

e Se pueden incorporar hallazgos que no se habían previsto. 

e Los investigadores cualitativos participan en la investigación a través de 
la interacción con los sujetos que estudian, es el instrumento de medida. 

e Analizan y comprenden a los sujetos y fenómenos desde la perspectiva 
de los dos últimos; debe eliminar o apartar sus prejuicios y creencias. 


Las características de la metodología cualitativa son las siguientes: 


e Una primera característica de estos métodos se manifiesta en su 
estrategia para tratar de conocer los hechos, procesos, estructuras y 
personas en su totalidad, y no a través de la medición de algunos de sus 
elementos. La misma estrategia indica ya el empleo de procedimientos 


que dan un carácter único a las observaciones. 
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e La segunda característica es el uso de procedimientos que hacen 
menos comparables las observaciones en el tiempo y en diferentes 
circunstancias culturales, es decir, este método busca menos la 
generalización y se acerca más a la fenomenología y al interaccionismo 
simbólico. 

e Una tercera característica estratégica importante para este trabajo se 
refiere al papel del investigador en su trato -intensivo- con las personas 
involucradas en el proceso de investigación, para entenderlas. 

e El investigador desarrolla o afirma las pautas y problemas centrales de 
su trabajo durante el mismo proceso de la investigación. Por tal razón, 
los conceptos que se manejan en las investigaciones cualitativas en la 
mayoría de los casos no están operacionalizados desde el principio de 
la investigación, es decir, no están definidos desde el inicio los 
indicadores que se tomarán en cuenta durante el proceso de 
investigación. Esta característica remite a otro debate epistemológico, 
muy candente, sobre la cuestión de la objetividad en la investigación 


social. 


1.3. La metodología cuantitativa. 
Es aquella que permite examinar los datos de manera numérica, 


especialmente en el campo de la Estadística. 
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Para que exista Metodología Cuantitativa se requiere que entre los elementos 
del problema de investigación exista una relación cuya Naturaleza sea lineal. 
Es decir, que haya claridad entre los elementos del problema de 
investigación que conforman el problema, que sea posible definirlo, limitarlos 
y saber exactamente donde se inicia el problema, en cual dirección va y que 


tipo de incidencia existe entre sus elementos. 


Los elementos constituidos por un problema, de investigación lineal, se 


denominan: variables, relación entre variables y unidad de observación. 


Para que exista Metodología Cuantitativa debe haber claridad entre los 
elementos de investigación desde donde se inicia hasta donde termina, el 


abordaje de los datos es estático, se le asigna significado numérico. 


El abordaje de los datos cuantitativos es estadístico, hace demostraciones 
con los aspectos separados de su todo, a los que se asigna significado 
numérico y hace inferencias: 

e La objetividad es la única forma de alcanzar el conocimiento, por lo que 
utiliza la medición exhaustiva y controlada, intentando buscar la certeza 
del mismo. 

e El objeto de estudio es el elemento singular Empírico. Sostiene que, al 
existir relación de independencia entre el sujeto y el objeto, ya que el 


investigador tiene una perspectiva desde afuera. 
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La teoría es el elemento fundamental de la investigación Social, le 
aporta su origen, su marco y su fin. 

Comprensión explicativa y predicativa de la realidad, bajo una 
concepción objetiva, unitaria, estática y reduccionista. 

Concepción lineal de la investigación a través de una estrategia 
deductiva. 


Es de método Hipotético — Deductivo. 


Las limitaciones se sitúan a nivel de varios riesgos de distorsión, el menor de 


los cuales no es ciertamente la conversión deformante de lo cualitativo en 


cantidades artificialmente calculadas sobre datos previamente transmutados 


ad hoc. En términos generales puede decirse que el análisis cuantitativo es 


típico sobre todo en la las ciencias sociales que trabajan con poblaciones, se 


liga al empirismo y a la ideología del proceso de las ciencias sociales. 


Las limitaciones de la investigación cuantitativa son: 


La subjetividad disfrazada Cuantitativamente. 

La conjugación Cuantitativa de agrupaciones para estudiar los sistemas 
Sociales. 

Tomar una parte del sistema como variable independiente (causa) y 
todo el de los datos. 

Cuantitativos lo que se puede observar en las investigaciones 


tradicionales. 
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1.4, Momento 1: La realidad fáctica: 


S Lógica de la primera fase del método de 


momento de investigación acción participativa 
la 
o e 


Tema 


Diagnóstico 


Insuficiencias 
Acciones De bilida des PROBLEMA 
Limitaciones 
Categorías 


Objetivo Objeto Campo Hipótesis 





Marco teórico 


Fuente: Elaboración propia 
1.5. Momento 2: El diseño y la sistematización de la investigación. 
e  Eldiseño de del proyecto. 
Portada. 
Resumen. 
Antecedentes y estado actual 
Hipótesis de trabajo. 
Objetivos. 
Metodología- Estrategia pedagógica 
Cronograma 
Presupuesto 
Referencias Bibliográficas 
Anexos 


e Elaboración del informe. 
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Para Noguera, R. et. al (2014), el informe es un texto académico de carácter 
expositivo, ya que en él se describen las acciones, los métodos y los 
procedimientos llevados a cabo para adelantar una labor, bien sea 
investigativa u operativa. A nivel educativo, es una herramienta que facilita la 
formación académica y profesional, ya que para su redacción se deben 
combinar la teoría y la práctica. Por tanto, el informe es contentivo de: 
Introducción: abarca la presentación del tema o problema a tratar. Su función 
esencial es contextualizar al lector. Algunas veces presenta los antecedentes 
teóricos del tema en cuestión. 

Desarrollo: presenta la metodología utilizada y los resultados y el análisis de 
los mismos o del procedimiento utilizado, si el tipo de informe lo permite. 
Conclusión: las conclusiones se pueden ofrecer en torno al análisis de los 
resultados o de los procedimientos. Si se incluyen comentarios personales 
deben estar argumentados, también se pueden incluir sugerencias y/o 
aplicaciones de las conclusiones para la toma posterior de decisiones. 

Los aspectos formales del informe dan cuenta de: 

Título que implica el tema, debe enunciarse sin verbo. Es decir; una frase 
nominal. 

Los subtemas son también frases nominales que van como inter títulos. 

Por lo general, los informes dan cuenta de eventos pasados, por lo tanto 
deben ir redactados en pretérito o pasado. 


Es importante que las enunciaciones vayan acompañadas de tablas, datos, 
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gráficos y documentación complementaria que puede ir a manera de 

apéndice o anexos. La información contenida debe ser fiable y clara, ya que 

con base en la misma, se generan cambios y se toman decisiones. 

Siempre que el informe emplee un lenguaje especializado, debe presentar un 

glosario. 

El informe requiere un estilo directo y formal alejado de toda parcialidad. 

En el proceso de elaboración de cualquier tipo de informe es importante 

documentarse, planear, elaborar una versión preliminar que luego será 

revisada y corregida antes de la versión final del documento. 

En la evaluación de los informes con fines académicos, es necesario que el 

docente determine unos parámetros de evaluación que deben ser conocidos, 

con anterioridad, por sus alumnos. 

Teniendo en cuenta los objetivos, el informe se clasifica en: expositivo, 

demostrativo e interpretativo. 

Informe expositivo: se caracteriza por la descripción de un hecho o una 

secuencia de hechos carente de interpretaciones personales. 

Informe demostrativo o investigativo (científico y técnico): el autor presenta su 

hipótesis, la descripción de todos los pasos que ha seguido para su 

demostración y las conclusiones. 

Informe interpretativo: a diferencia de los anteriores, en este tipo de informe, 

no solo se presentan y describen hechos, también es necesario interpretarlos 

y analizarlos lo que constituye el fundamento para la toma de decisiones y 

conclusiones. Este tipo de informe presenta análisis y recomendaciones, 
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hecho que lo caracteriza más como un texto argumentativo que como uno 
expositivo. 

Según los contenidos y fines específicos se clasifican en: de lectura, de 
salida de campo y de laboratorio, entre otros. 

En su estructura textual, el informe presenta tres partes bien definidas que 
son: la introducción, el desarrollo y la conclusión. El contenido de cada una 
de estas tres partes varía dependiendo de la tarea asignada y de la rama del 
conocimiento en la cual se aplica. 

Aspectos formales de presentación del informe 

Cubierta, carátula o portada contiene: tema, autor o autores, asesor, si aplica, 
entidad a la que se presenta, ciudad y fecha. 

Índice o contenido: utilización de nomencladores que presentan las partes del 
informe. 

Cuerpo del informe 

Introducción o presentación: se contextualizan las acciones reportadas, sus 
condiciones de realización, intenciones y necesidades que las originaron. 
Objetivos: Se pueden subdividir en objetivo general y en objetivos 
específicos. En su redacción responden al qué, el cómo y el para qué de los 
propósitos con los cuales se realizaron las acciones. 

Acciones: se presentan secuencialmente. 

Metodología: corresponde al tipo de procedimientos realizados o a las 


metodologías empleadas según el tipo de acción efectuada. 
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Recursos: son los medios, materiales e instrumentos empleados en la 
ejecución de las acciones. 

Conclusiones: aquí se plantean los resultados de las acciones adelantadas 
cuidáandose de no repetir lo ya expuesto. Es importante hacer 
recomendaciones para la toma de decisiones, por parte de los entes ante los 
cuales se les presenta el informe. 

Bibliografía: listado alfabético de fuentes consultadas y utilizadas. Si se han 
usado fuentes documentales, la bibliografía se presenta, si no, no. 

Anexos: gráficos, tablas, registros fotográficos. 

e Elaboración de un artículo. 

El artículo científico, según Mari (2013, p. 3) “es un informe escrito que 
comunica por primera vez los resultados de una investigación”. Los artículos 
científicos publicados en revistas científicas componen la literatura primaria 
de la ciencia. Los libros y los artículos de síntesis (review articles) que 
resumen el conocimiento de un tema componen la literatura secundaria. 

Hay dos tipos principales de artículo científico: el artículo formal y la nota 
investigativa. Ambos tienen una estructura similar pero las notas 
generalmente son más cortas, no tienen resumen, el texto no está dividido en 
secciones con subtítulos y la investigación que informan es de menor 
impacto. 

El artículo científico tiene seis secciones principales: 


1. Resumen (Abstract)- resume el contenido del artículo 


29 


Introducción- provee un trasfondo del tema e informa el propósito del 
trabajo 

Materiales y Métodos- explica cómo se hizo la investigación 

Resultados- presenta los datos experimentales 

Discusión- explica los resultados y los compara con el conocimiento 
previo del tema 

Literatura Citada- presenta las fichas bibliográficas de los artículos 


citados en el texto. 
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UNIDAD 2 DISEÑOS EXPERIMNTALES 


OBJETIVO ESPECÍFICO DE LA UNIDAD 2: 


Desarrollar la capacidad de interpretación, análisis y toma de 
decisiones del dato y de muestras estadísticas en el contexto del uso y 


aplicación de diseños experimentales de contrastación de hipótesis. 


CONTENIDOS MÍNIMOS DE LA UNIDAD 2: 
2.1. Estadística descriptiva. 


2.1.1. Definición de estadística descriptiva, conceptos básicos. 
2.1.2. Distribución de frecuencias. 
2.1.3. Representaciones gráficas. 
2.2. Medidas de: posición, dispersión y forma. 
2.2.1. Mediadas de posición o tendencia central. 
Media aritmética. 
Media aritmética para datos no agrupados. 
Media aritmética ponderada. 
Mediana. 
Formas de relación entre media, mediana y moda. 
2.3. Medidas de posición de tendencia no central. 


Cuartiles. 
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2.9. 


mada 


2.9.2. 
2.9.3. 


Deciles. 
Percentiles. 
Amplitud de variación (rango). 


Medidas de dispersión. 


. La varianza. 


. Desviación estándar. 


Medidas de dispersión relativa. 


. Coeficiente de variabilidad. 


Medidas de forma. 


. Coeficiente de asimetría. 


. Representación de medidas: el diagrama de caja. 


Tipificación de puntajes Z. 


Recta de regresión. 


. Covarianza y correlación. 


Estadística inferencial. 


. Definiciones. 


Muestreo. 


El muestreo aleatorio simple. 
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2.9.4, Errores muestrales. 
2.9.5. Inferencia. 
2.9.6. Características generales 


2.9.7. Contrastar hipótesis sobre el error de la media en una población 
normal. 


2.9.8. Dar un margen de confianza a la suposición de que dos muestras 
determinadas proceden o no de la misma población. 


2.9.9. Tamayo muestral. 

2.9.10. Estimación de parámetros. 

2.9.11. Distribución muestral de medias. 

2.9.12. Estimación de proporciones. 

2.9.13. Contrastación de hipótesis. 

2.9.14. Cálculo del tamaño muestral para contrastes sobre medias. 
2.9. 15. Conceptos principales sobre: tema, problema e hipótesis. 
2.9.16. Errores de tipo I y ll. 

2.9.17. Pasos de las pruebas de hipótesis. 


2.9.18. Método de contrastación de hipótesis: Diferencia entre 
proporciones para datos no correlaciones. 


TAREA No.1. 
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2.10. Métodos de contrastación de hipótesis: Diferencia entre medias 
para muestras de diferente tamaño y datos no correlacionados. 


2.10.1. Método de diferencia de medias para datos no correlacionados. 
TAREA No.2. 


2.10.2. Método de construcción de hipótesis mediante análisis de 
varianza simple. 


TAREA No.3. 


2.10.3. Método de construcción de hipótesis mediante razón T de 
Student. 


TAREA No.4. 


LOGROS DE LA UNIDAD 2: 
Interpreta, comprende y toma decisiones pertinentes de los resultados 
de la estadística descriptiva. 


Descubre el valor y pertinencia del cálculo de los estadígrafos 
estadísticos con el uso y aplicación del GeoGebra. 


Determina el nivel de significación que arrojan los métodos de 
contrastación de hipótesis en el contexto de la estadística inferencial 
mediante el uso del GeoGebra. 


TAREAS DE LA UNIDAD 2: 
1. Elabore un organizador gráfico de los temas de estadística 
descriptiva. 
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2. Elabore un video de los temas de estadística descriptiva con una 
duración de 3 minutos. 


3.  Socializar de manera oral con argumentos teóricos los temas de 
estadística descriptiva. 


4. Elabore un organizador gráfico de los temas de estadística 
inferencial. 


5, Elabore un video de los temas de estadística inferencial con una 
duración de 3 minutos. 


6.  Socializar de manera oral con argumentos teóricos los temas de 
estadística descriptiva. 


EVALUACIÓN DE LA UNIDAD 2: 
Competencia | Indicador | Puntaje | 


Construcción de organizador | a+b+c= 10 
gráfico: a+tb= 8 
d. Redes semánticas. | c= 6 
e. Relaciones 
cruzadas 
f. Derivación de 4to 
orden 


Análisis d. Secuencia lógica | atb+c= 10 
desde el | a+b= 8 
organizador c=6 
gráfico. 

e. Discurso claro y 
pertinente. 

f. Concreción de 
ejemplos y 
aplicaciones 


Búsqueda de información d. Mucho atb+c= 10 
científica actualizada e. Poco atb= 8 

f. Nada c= 6 
Uso y aplicación de métodos d. Mucho atb+c= 10 
científicos y empíricos e. Poco atb= 8 

f. Nada c=6 
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2. DISEÑOS EXPERIMENTALES 


32 horas...... Diseños Experimentales. 


2.1. Estadística descriptiva. 


2.1.1. Definición de estadística descriptiva, conceptos básicos. 
Es un conjunto de técnicas numéricas y gráficas para describir y analizar un 


grupo de datos, sin extraer conclusiones (inferencias) sobre la población a la 
que pertenecen. En este tema se introducirán algunas técnicas descriptivas 
básicas, como la construcción de tablas de frecuencias, la elaboración de 
gráficas y las principales medidas descriptivas de centralización, dispersión y 


forma que permitirán realizar la descripción de datos. 


En cualquier análisis estadístico el objetivo último es extraer conclusiones 
sobre un colectivo de interés denominado población. En ocasiones, el 
tamaño de la población (formada por individuos) puede hacer inabordable el 
estudio individualizado de las características de cada uno de ellos. En ese 


caso es necesario tomar una muestra para realizar ese estudio. 


Población: colectivo de individuos sobre los que se quiere extraer alguna 


conclusión. 
Individuo: cada uno de los elementos de la población (unidad estadística). 


Muestra: subconjunto (representativo) de la población, que se selecciona 


con el objetivo de extraer información. 
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Para aplicar una técnica descriptiva, numérica o gráfica, será necesario 


analizar previamente el tipo de variable con la que se está trabajando: 


Variable estadística: cada una de las características consideradas con el 


propósito de describir a cada individuo de la muestra. 


Tipos de variables: se distinguen dos tipos de variables. Las variables 
cualitativas o categóricas (aquellas que no se pueden expresar a través de 
una cantidad numérica) y las variables cuantitativas (se puede expresar a 
través de un número). A su vez, estas últimas pueden clasificarse en 
discretas y continuas, según el tipo de valores que tomen. En el Cuadro 1 


se incluyen algunos ejemplos: 


Cuadro 1: tipos de variables estadísticas. 


TIPO CLASE EJEMPLOS 


Cualitativa Normal - Ordinal Sexo, raza, color de ojos 
Grado de contaminación, calificaciones 
Cuantitativa Discreta - Continua No. de hermanos, No. de materias, peso, altura 
Fuente: Elaboración propia. 





2.1.2. Distribuciones de frecuencias. 
Las tablas de frecuencias son una de las técnicas básicas para el resumen 


de información a partir de una muestra de datos. Su construcción es sencilla, 
pero en conjuntos de datos de un tamaño moderado o grande su cálculo 
puede resultar laborioso, aunque se pueden obtener utilizando cualquier 


paquete estadístico. 
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Tablas de frecuencias: las tablas de frecuencias se utilizan para representar 
la información contenida en una muestra de tamaño n extraída de una 


población, (x1, ..., xn). 


Modalidades: cada uno de los valores que puede tomar una variable 
(cualitativa o cuantitativa discreta). Se denotan como: ci, i = 1,..., k. El 


número de individuos de la muestra en cada modalidad ci se denota por ni. 


Frecuencia absoluta: para cada modalidad ci, la frecuencia absoluta es ni, i = 
AN 


Frecuencia relativa: para cada modalidad ci, la frecuencia relativa es fi = ni /n, 
1=14,...,K 


Frecuencia absoluta acumulada: la frecuencia absoluta acumulada de una 


Ni = S = 
j=l 


modalidad ci es ni+...+ni,i=1,...,k. 


Frecuencia relativa acumulada: la frecuencia relativa acumulada de una 


ri- $j- 


modalidad ci es A fj=f1+...+fi=Nin,i=1,...,k. 


Tabla 1: visualización de los elementos de una tabla de frecuencias 


Modalidad Frecuencias Frecuencias Fr abs. acumuladas Fr. Rel 
absolutas relativas acumuladas 
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Fuente: Elaboración propia 


En el caso de variables cualitativas o cuantitativas discretas con pocos 
valores, es posible determinar las modalidades de la variable. Sin embargo, 
en el caso de variables cuantitativas continuas (o cuantitativas discretas con 
muchos valores), se tendrán que construir modalidades artificiales de manera 
que se agrupen valores por intervalos. Estas nuevas modalidades se 


denominan intervalos de clase. 


Intervalos de clase: para variables cuantitativas continuas, se agrupan los 
distintos valores obtenidos en la muestra en intervalos. Cada intervalo 
representará una modalidad en el caso de variables cuantitativas continuas. 


K= número de intervalos o clases. 


A partir de una muestra, los intervalos de clase se construyen de la siguiente 
forma: 


e i 
-  Denotamos por £? < f1 <...< “ los extremos de los k intervalos de 
clase. Cada intervalo será de la forma (H, €), 


-Amplitud del intervalo: “ =  - €i 
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ei FÉ; 
- Marca de clase: “= 2 
- Para seleccionar el número de intervalos, consideramos el entero más 


próximo a vn , donde n es el tamaño de la muestra observada. El 
número de intervalos suele estar entre 5 y 20, cantidad que se 
recomienda con la llamada regla de Stunges. Para determinar la 
amplitud de los intervalos (en principio, todos de la misma amplitud), 
tenemos que ver antes cuál es el rango de variación de los datos 
(diferencia entre el máximo y el mínimo), y construir los intervalos de 


manera que cubran todo el rango. 
K= 1+3.3 log N, 


dato(mayor) — dato(menor) 
d; = k 
Con el valor de la amplitud se procede a calcular los intervalos y a precisar la 


frecuencia para cada uno de ellos, así en el ejemplo de las velocidades de 


los conductores de automóviles, tomadas por un radar de carreteras: 


Si la tarea es: construir la distribución de frecuencias para las velocidades de 





los 55 automóviles: implica un proceso de: 


Paso uno: ordenar los datos de mayor a menor: 
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20 12 |23 |23 [26 |æ |2 |32 |s |“ |63| 





Paso dos: calcular el número de clases: 
K= 1+3,3 (log 55) = 6,743, siendo el número de clases: 7 
Paso tres: calcular la amplitud: 


0 A 685707 


l 


Paso cuatro: determinar la amplitud de cada clase o intervalo: 


Intervalo de clase Frontera inferior Frontera superior Amplitud de clase 


15-21 14,5 
22-28 21,5 
29-35 28,5 





Paso quinto: determinación de las frecuencias respectivas a cada intervalo o 


clase: 
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2.1.3. Representaciones gráficas. 
La clasificación de variables que se ha expuesto en la sección anterior, 


distinguiendo entre variables cualitativas y cuantitativas (discretas y 
continuas) es de crucial importancia a la hora de construir representaciones 


gráficas. 


De modo esquemático, se introducen las principales técnicas de 
representación para variables cualitativas, variables cuantitativas discretas y 
cuantitativas continuas. En el caso de variables cuantitativas discretas, si 
tienen pocos valores, se puede hacer uso de las representaciones descritas 
para variables cualitativas (diagramas de barras y sectores). Si por el 
contrario toman muchos valores, entonces se pueden utilizar las 


representaciones para variables cuantitativas continuas. 


Variables cualitativas. Para la representación de variables cualitativas se 


suelen utilizar el diagrama de barras o el diagrama de sectores. 


Para construir un diagrama de barras, en el eje horizontal se representan las 
categorías o modalidades de la variable que se quiere representar y se 
levantan barras de altura proporcional a la frecuencia de cada modalidad 


(absoluta o relativa). 


En el diagrama de sectores también se representan las distintas modalidades 
y su frecuencia, de manera que el círculo se reparte de forma proporcional a 


la frecuencia de cada modalidad. Algunos ejemplos de estas 
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representaciones para datos de participación en redes sociales en un grupo 


de 180 jóvenes se muestran en la Figura 1. 


Figura 1: Diagrama de barras y diagrama de sectores para datos de 
pertenencia a redes sociales. 


o 
r 
= { 
- Fasotbe ox 
N 
| E 
Tuert 


Fuente: elaboración propia. 








Variables cuantitativas discretas. Además del diagrama de barras descrito 
para las variables cualitativas, que también se puede utilizar para variables 
cuantitativas discretas, para la representación de este tipo de variables se 


tiene el diagrama acumulativo de frecuencias. 


El diagrama acumulativo de frecuencias se construye representando, para 
cada modalidad de la variable ci, los puntos (ci; Ni) (o bien (ci; Fi)) y 
uniéndolos con segmentos horizontales y verticales, de forma que se obtiene 


una función escalonada. 


Si se utilizan las frecuencias relativas acumuladas, el valor máximo del 


diagrama acumulativo se alcanza en el 1, mientras que, si se construye con 
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las frecuencias absolutas acumuladas, el máximo será el número de datos de 
la muestra. Se muestran el diagrama de barras y el diagrama acumulativo de 


frecuencias para la variable "número de hijos de una familia" en la Figura 2. 


Figura 2: Diagrama de barras y diagrama acumulativo de frecuencias para el 
número de hijos de una familia. 
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Fuente: Elaboración propia. 





Ni ca hipe 


Variables cuantitativas continuas. En el caso de variables cuantitativas 
continuas, podemos construir el poligono (acumulativo) de frecuencias, de 
igual modo que el diagrama acumulativo de frecuencias explicado para 
variables cuantitativas discretas, pero considerando las marcas de clase de 
cada intervalo ei en la representación. Sin embargo, son más usuales otras 


representaciones como el histograma y el diagrama de tallo y hojas. 
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El histograma equivale en cierto modo al diagrama de barras, pero en el caso 


continuo, de forma que las barras aparecen contiguas. 


En el eje horizontal se representan los intervalos de clase de la variable, y 
sobre ellos se levantan barras de altura hi = ni/ai (o bien hi = fi/ai), donde ni 
es la frecuencia absoluta de cada intervalo (fi es la frecuencia relativa) y ai es 


la amplitud del mismo. 


Si el histograma se construye con frecuencias relativas, la suma de las áreas 


de las barras es igual a 1. 


El histograma da una idea clara de la distribución de los datos, pero es muy 
sensible a la elección de los intervalos de clase (véase Figura 3, panel 


izquierdo). 


Figura 3: Histograma y diagrama de tallo y hojas para datos de peso de 
personas adultas. 
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Fuente: Elaboración propia. 
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El diagrama de tallo y hojas es una representación que permite observar los 
datos y que a la vez da una idea de la distribución de los mismos. Primero se 
seleccionan el número de cifras significativas (tallo) que se colocan a la 
izquierda, se traza una línea vertical y se incluyen al lado las cifras siguientes 


de cada dato observado (hojas). 


Se puede ver un ejemplo de representación para el peso de 300 personas en 
la Figura 3. Si se gira el diagrama de tallo y hojas 90* en el sentido contrario 
a las agujas del reloj, se puede observar una forma muy similar a la del 


histograma. 


2.2. Medidas de: posición, dispersión y forma. 

Denotando por (x) la variable estadística de interés y por x, la observación 
en el individuo i, se introducirán en este apartado algunas de las principales 
medidas características para describir la información contenida en una 


muestra x,,........ x, de tamaño n. 


Dichas medidas se utilizan para resumir la información atendiendo a tres 
aspectos principales: alrededor de qué valores se encuentran los datos, 
cuánto se dispersan y si se distribuyen de manera similar a una campana de 


Gauss, que será el modelo que se tome como referencia. 


Por ello, se distinguirán tres tipos de medidas: medidas de posición, medidas 


de dispersión y medidas de forma. 


46 


2.2.1. Medidas de posición o tendencia central. 


Las medidas de posición o localización indican el valor o valores alrededor de 
los cuales se sitúan los datos observados. Distinguiremos medidas de 
localización de tendencia central (media, mediana y moda) y de tendencia no 


central (cuartiles, deciles y percentiles). 


Como medidas de posición de tendencia central se introducirán la media 
aritmética o media muestral, la mediana y la moda. Estas medidas 
proporcionan valores alrededor de los cuales se distribuyen los datos 


observados en la muestra. 


Las medidas de tendencia central indican hacia donde se inclinan o se 
agrupan más los datos. Las más utilizadas son: la media, la mediana y la 


moda. 


El propósito de las medidas de tendencia central es: 


1. Mostrar en qué lugar se ubica el elemento promedio o típica del grupo. 

2. Sirve como un método para comparar o interpretar cualquier valor en 
relación con el puntaje central o típico. 

3. Sirve como un método para comparar el valor adquirido por una misma 


variable en dos diferentes ocasiones. 
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4. Sirve como un método para comparar los resultados medios obtenidos 


por dos o más grupos. 


- La Media aritmética. 
La media o media aritmética, usualmente llamada promedio, se obtiene 


sumando todos los valores de los datos y divide el resultado entre la cantidad 
de datos. Si los datos proceden de una muestra la media se representa con 


una x testada (x) y si provienen de la población se representan con la letra 


griega miu (p). 


Se define como: n n 


La media aritmética (media muestral) presenta las siguientes propiedades, 


que son fáciles de deducir a partir de la definición: 
- Toma valores entre el mínimo y el máximo: 
mín(x...x, ) <x< máx x,...x,) 


- La media aritmética es lineal. Si consideramos los datos Y: = Pú +2 Ja 


media de los nuevos datos se obtendrá como Y =% + b 
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- La media de las desviaciones con respecto a la media es cero: 


- La media de los cuadrados de las desviaciones con respecto a una 


_ | 
x = arg mín, -> (x, = a) 
r " D i=l l 
constante es minima para la media n 
El valor de la media no tiene porqué pertenecer al conjunto de posibles 
valores de la variable. Por ejemplo, puede resultar que el número medio de 


hermanos de una muestra no sea un número entero. 


Uno de los problemas que presenta la media es que no es una medida 
robusta, es decir, su valor se ve influenciada por datos anormalmente altos o 
bajos. Los datos que difieren numéricamente de las demás observaciones se 


denominan valores atípicos. 


Algunas modificaciones para corregir la falta de robustez son la media 
truncada y media recortada. En la media truncada, un porcentaje de los datos 
atípicos se elimina del cálculo y para obtener una media recortada, estos 
valores atípicos se substituyen por el punto de corte, es decir, el dato 
inmediatamente inferior a los que se eliminan, para datos altos, y el 


inmediatamente superior para los datos bajos. 
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Otra modificación es la media ponderada en la cual se asigna distintos pesos 

a las observaciones. En la media aritmética cada observación tiene una 
E 

contribución de peso ” al valor de ¥. En la media ponderada, cada 


n 
./7 r r n " @. — 1 
observación tendrá una ponderación e , de tal modo que: ar l 


- Media aritmética para datos no agrupados. 


n 
ME 
i=] ! 


pa E 
Para datos no agrupados muestrales: n 


n 
Las 
X= i=] ! 


Para datos no agrupados poblacionales: N 


Para datos agrupados en una tabla de frecuencias, la media aritmética se 


calcula como: 


k 
= k 2 cy 
Y = 2, Ce R E i 
= , donde ~: es la marca de clase y * denota el 
número de intervalos de clase de los que se dispone. Las propiedades 


anteriormente descritas también se aplican a este caso. 


A continuación, se presenta una muestra de las puntuaciones no agrupadas 


de un examen de un curso de estadistica: 


70 90 95 74 58 70 98 72 75 85 95 74 80 85 90 65 90 75 90 69 
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Podemos calcular el promedio de las puntuaciones para conocer cuántos 


estudiantes obtuvieron puntuaciones por encima y por debajo del promedio. 


Se suma todos los valores de los datos y el resultado lo divide entre el total 
de datos o tamaño de la muestra. Al sumar todas las puntuaciones en el 
ejemplo anterior obtendrás un total de 1600, que dividido por 20 (total de 


datos), es igual a 80. 


- Media ponderada. 
En ocasiones es necesaria la obtención de una media aritmética de variables 


cuyos valores observados tienen distinta importancia y por tanto se deben 
ponderar de distinta manera para obtener la media. En el caso que la 
ponderación sea distinta, se habla de una media ponderada y los valores por 
los cuales se ponderan los distintos valores se llaman pesos o ponderaciones 
(wi). 


O WIX HWX, + WX; +... + W, X, 


wi 


La fórmula está dada por: Cu a A la 


Evaluación 


Parcial 1 


Parcial 2 
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A CA A 


A continuación, se muestran las ponderaciones de las evaluaciones en los 
cursos de estadística y las calificaciones de un estudiante durante en un 
semestre. 


Determine la calificación promedio del estudiante. 


y 30(9) + 30(7) + 20(8) + 10(9) + 10(8,4) 


Xx, =8,14 
30+30+20+10+10 


La calificación promedio del estudiante de los cinco ítems evaluados es de 


8.14 puntos. 


- Mediana. 
Si suponemos que los datos de la muestra están ordenados de menor a 


mayor, la mediana es el valor hasta el cual se encuentran el 50 % de los 
casos. Por tanto, la mediana dejará la mitad de las observaciones por debajo 
de su valor y la otra mitad por encima. Así, si la muestra consta de un 
número impar de datos (n impar), la mediana será el dato central. Si el 
tamaño de la muestra n es par, entonces se tomará como mediana la media 


de los dos datos centrales. 


En el caso de tener la variable representada en una tabla de frecuencias, 


podemos definir el intervalo mediano, que será aquel cuya frecuencia relativa 
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acumulada en el extremo inferior es menor que 1/2 y en el extremo superior 


mayor que 1/2. 


A diferencia de la media, es una medida robusta ya que su valor se ve poco 
afectado por la presencia de datos atípicos. Si de una muestra se obtienen la 
media y la mediana y sus valores difieren sustancialmente, esto será 


indicativo de la presencia de datos atípicos. 


Los criterios necesarios para calcular la mediana, son los siguientes: 


a. Se requiere es ordenar los datos en forma ascendente o descendente, 
cualquiera de las ordenaciones conduce al mismo resultado. Esto es: 
MX O 


Xy 


. . r . r . +1 r 
b. Si N es impar, hay un término central, el término 2 que será el valor de 
la mediana. 


Xy Ayn 
: , , — —+1 , f 
c. Si N es par, hay dos términos centrales, ? y 2 la mediana será la 
media de esos dos valores. 


Fórmula de la medina para valores agrupados: 


n 


i—l 
Me = Da F oa 


Me = Mediana 


Li-1 = Límite inferior de la clase de la mediana 
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c = la amplitud del intervalo de clase mediana 
Fi—1 = Frecuencia acumulada anterior a la clase mediana 
fi = Frecuencia de la clase de la mediana. 


Si de los estudiantes de la modalidad a distancia de la Facultad de Ciencias 
Administrativas, se toma como muestra a 50 matriculados de manera 
aleatoria en el periodo abr —- sep. del 2015, para determinar la mediana de 
estatura en centímetros. Entonces, de acuerdo a las mediciones 
correspondientes se tiene. 


Completando la tabla para la aplicación de la fórmula, se tiene: 
150-156 


156-162 
162-168 


168-174 
174-180 
180-186 


En consecuencia, remplazando en la fórmula: 
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LA 
2 2 


0) 
Me=168+(6) eras =168+164=169,64 


Moda. Para variables discretas o cualitativas, la moda es el valor o valores 
que más se repiten. Esto implica que la moda no tiene porqué ser única. Para 
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variables cuantitativas continuas, el intervalo modal es aquel con mayor 
frecuencia. La moda se denotará por Mo. 


Si los datos se encuentran agrupados, se puede obtener el intervalo modal 


como aquel que tiene una mayor frecuencia. 
Forma de cálculo Mo = fi máxima 
fi máxima, quiere decir que es la de mayor frecuencia absoluta 


162-168 


174-180 


162-168 | 
168-174 
o 174180 | 





E O a 


Tipos de moda 
1. Unimodal. La moda es única. 


2. Polimodal. Por su propia definición, la moda puede no ser única, pues 
puede haber dos o más valores de la variable que tengan la misma 
frecuencia, siendo esta máxima; en cuyo caso se tendrá una distribución 
bimodal o polimodal según el caso (Universidad Michoacana de San 
Nicolás de Hidalgo, 2015). 
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Determinar la moda del siguiente conjunto de datos: 1, 2, 3, 4, 4, 5, 2, 1, 3, 4, 
2,3,4, 6, 3, 3, 4. 


Solución: 

Para mayor facilidad, si se ordena de manera ascendente se 

tiene: 1, 1, 2, 2, 2, 3,3,3,3, 3, 4,4, 4,4,4, 5,6, 

Se identifica los elementos que más se repite, por lo cual Mo = 3, y Mo = 4 


Las modas de este conjunto de datos son 3 y 4, ya que ambas tienen la más 


alta frecuencia y se determina que es bimodal. 


Para determinar la moda de datos agrupados se debe utilizar intervalos con 


igual amplitud. 


La fórmula de cálculo para la moda de datos agrupados está dada por: 


Af; 


Mo =La +t) 
CC Y +A, 


Nomenclatura. 
Mo = Moda 
Li-1 = Límite inferior de la clase modal 


c = la amplitud del intervalo de clase modal 
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Afi = variación de la frecuencia modal sobre la clase modal 
inmediata anterior. 


Afs = variación de la frecuencia modal sobre la clase modal 
inmediata superior. 


Afi=fi- fi-1 

Afs=fi- fi+1 

La edad de los estudiantes de la modalidad a distancia de la Facultad de 
Ciencias Administrativas, matriculados en el periodo abr — sep del 2015, 
arrojaron los resultados siguientes: 

A El símbolo *[18”, significa que incluye el 18; y “28)”, significa que el 28 no 
está incluido, pero si incluye los valores cercanos al 28 por la izquierda. Se 
requiere calcular la moda de edad en años de los estudiantes de la 
modalidad a distancia. Solución Se ha considerado a todos los estudiantes 


de la modalidad a distancia de la Facultad de Ciencias Administrativas, se 


trata de toda la población. En consecuencia. 





Donde: 


f, =1146 Af, =1,146-573=573 


57 


L =18 Ta =0 

c=10 

M, -18+10— 2 — -18+10=28 
1,146 — 573 


- Formas de la distribución de medidas de tendencia central. 


Las medidas de tendencia central se pueden clasificar en: 


e medida de magnitud — media, 
e medida de posición — mediana 
e medida de frecuencia - la moda 


Relación entre media aritmética, mediana y moda: 


keria aio 
Moda Mediana Media Media Mediana Moda Media = mediana = moda 
Si media > mediana, Si media < mediana, 
la distibución es asimétrica la distnbución es asimétrica 
con cola a la derecha con cola a la izquierda 
(sesgada a la derecha) (sesgada a la izquierda) 


Fuente: Vazquez. O. (s.a). 
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En distribuciones totalmente simétricas, la media, la mediana y la moda 
coinciden, localizándose en un mismo valor. En cambio, en distribuciones 
moderadamente asimétricas, la siguiente relación se mantiene 


aproximadamente: 


Posiciones relativas de la media, la mediana y la moda para curvas de 
frecuencias asimétricas a derecha e izquierda respectivamente, para curvas 
simétricas los tres valores coinciden (Cabrera, 2015). Así, veamos el 


siguiente caso: 


Una granja ganadera registro durante febrero el nacimiento de 29 terneros, 
cuyos pesos al nacer (en kilogramos) fue el siguiente: 


22 31 33 34 ë 35 36 37 38 38 39 
40 40 40 41 41 42 42 42 P P 
433 43 44 4&5 46 46 46 46 50 


Los datos anteriores al ser dispuestos en una tabla de distribución de 
frecuencias se obtuvo la siguiente tabla resultante. 


Clases Xi — X; 


21,5-26,5 
26,5-31,5 
31,5-36,5 


41,5-46,5 3 
46,5-51.5 
z 


Se debe hacer el cálculo en las dos variantes (datos no agrupados y datos 
agrupados) la media aritmética, la mediana y la moda. Medidas de posición 
relativa o de tendencia no central. 


36,5-41,5 
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Como medidas de posición de tendencia no central, están los cuartiles, 


deciles y percentiles. 


La solución, precisa en los datos no agrupados: Los nacimientos registrados 
en el mes de febrero es de 29 terneros, razón por la que se trata de un valor 


poblacional. 


Media aritmética de población la fórmula de cálculo es: 


>a 


ls Fa , reemplazando los datos, se tiene: 


T= 22+31+33+...+46+50 _ 1,164 - 40.14 





29 29 





Mediana: La fórmula de cálculo es: 


Me = Xy 29+1 30 _ 





N+l 15 
2= 2 2 Sustituyendo ™!5 , en la serie ordenada 


de menor a mayor, se tiene Me = X15 = 41 kilogramos (sombreado color 
amarillo). 


Moda: La fórmula de cálculo es: Mo = fi máxima 


La frecuencia mayor se encuentra en el número 42, donde fi = 5. Por tanto, 
se tiene que 
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Mo = 42 kilogramos 
Al comparar u, Me y Mo, se tiene: 
u =40.14 kilogramos 
Me = 41 kilogramos 
Mo = 42 kilogramos 


Como: u < Me < Mo; Entonces, la distribución es asimétrica hacia la 
izquierda. 


Sesgada a la izquierda 


mean mode 


median 


Para el cálculo de la media, mediana y moda, en datos agrupados, es 
necesario adecuar la tabla proporcionada, por la siguiente. 


Frecuencia 
acumulada 
1 


C 


41,5-46,5 
46,5-51,5 
EA 





n 
_ Ža fix 


maaa e 5f 
Media aritmética: La fórmula de cálculo es: i 
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Reemplazando los datos, se tiene 


u = 1,161/29; u = 40.03 kilogramos 


n 


2 Te | 
Me=L,, +(c) 
Mediana: la fórmula de cálculo es: i 





Para la aplicación de la fórmula, es necesario identificar el renglón de la clase 
mediana, para lo cual el número de elementos se divide para dos. 


N/2 = 29/2 = 14.5 Como 14.5 es la mitad del total, buscamos en la 
columna de Fi el valor más cercano mayor a 14.5, obteniéndose el renglón: 





En base a este renglón y sus relacionados en la tabla, se procede a su 
reemplazo. 

2 6 
Me =36,5(5) -= = 36,5 + 5(0,9444) = 41,22 


Af, 


Moda: la fórmula de cálculo es: Mo = £,_, + (c) ———— 
Af, + Af, 


En la distribución se ubica el renglón en el cual se ubica la clase modal 
identificada pro la mayor frecuencia. 


Entonces: 
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Af. =f.-f,, =13-9=4 
Af == f 4 =18=1=12 
Reemplazando en la fórmula, se tiene: 


Mo=415 7 E = 
4+12 


Mo = 41,5 + 5(0,25) = 41,5 +1,25 = 42,75 
Al comparar u = 40,03; Me = 41,22 por consiguiente la relación es: 


u< Me < Mo 


2.3. Medidas de posición de tendencia no central. 


2,3.1. Cuartiles. 
Los cuartiles Q1, Q2 y Q3 dividen la muestra en cuatro partes iguales, de 


manera que por debajo de Q1 tenemos el 25 % de los datos, entre Q1 y Q2 


se encuentra otro 25 % y por encima de Q3 otro 25 %. 


2.3.2. Deciles. 
La idea de dividir la muestra en partes iguales se puede generalizar a la 


d,d 


construcción de los: Deciles ( 2, dividen la muestra en 10 partes 


iguales). 
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Los deciles son ciertos números que dividen la sucesión de datos ordenados 
en diez partes porcentualmente iguales. Son los nueve valores que dividen al 
conjunto de datos ordenados en diez partes iguales, son también un caso 
particular de los percentiles, ya que podemos definir Decil como “percentil 
cuyo valor que indica su proporción es un múltiplo de diez. Percentil 10 es el 


primer decil, percentil 20 el segundo decil”. 


El primer decil D1: indica que sólo existe un 10% de probabilidad de que el 
valor de la variable esté por debajo de esa cifra. Quinto decil D5 o 
denominado también “Caso Base”: indica que existe igualmente un 50% de 
probabilidad de que el valor esté por encima como por debajo de esa cifra. 


Representa la Mediana de la distribución. 


2.3.3. Percentiles. 
Los percentiles son, tal vez, las medidas más utilizadas para propósitos de 


ubicación o clasificación de las personas cuando atienden características 


tales como peso, estatura, etc. 


Los percentiles son ciertos números que dividen la sucesión de datos 
ordenados en cien partes porcentualmente iguales. Estos son los 99 valores 
que dividen en cien partes iguales el conjunto de datos ordenados. 
Sencillamente Percentil es el valor del recorrido de una variable, bajo el cual 


se encuentra una proporción determinada de la población. 
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Los percentiles (P1, P2,... P99), leídos primer percentil,..., percentil 99, 
muestran la variable que deja detrás una frecuencia acumulada igual al valor 


del percentil. 


Primer percentil, que supera al uno por ciento de los valores y es superado 
por el noventa y nueve por ciento restante. El 60 percentil, es aquel valor de 
la variable que supera al 60% de las observaciones y es superado por el 40% 
de las observaciones. El percentil 99 supera 99% de los datos y es superado 


a su vez por el 1% restante. 


Percentiles (41*""""" Po dividen la muestra en 100 partes iguales). 


En general, se define el cuantil de orden p (0 < p < 1) como el valor que deja 


por debajo (a lo sumo) np observaciones (por tanto, n(p - 1) observaciones 


por encima). El cuantil p se denotará por do 


Con la información: 10, 5, 12, 8, 14, 11, 15, 20, 18, 30 y 25. 
Primero, se ordenan los datos: 5 8 11 12 14 15 18 20 25 30 
Segundo, se determina el (i) para cada cuartil: 

Q1 = primer cuartil, o percentil 25. 

Q3 = tercer cuartil, o percentil 75. 

Calcular posición de los Cuartiles: 


Q1 = primer cuartil, o percentil 25 
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LA, A 
100 o bien A > 4 4 =3 








Como (i) no es un número entero, se redondea al próximo entero mayor que 
2.5, 0 sea 3. Al referirnos a los datos vemos que el primer cuartil está ubicado 
en la posición 3 de los datos que este caso es 11. El primer cuartil en los 


datos se divide de la siguiente forma: 


9011 1214 15 18 20 25 30 
Q1=11 


Tercer cuartil: Q3 = tercer cuartil, o percentil 75: 








LO . 3An+l) 
i = —n Qi = ——— 
100 o bien A aeee > 

ge 1041) 39 -8.25 

4 4 =8 
58 111214 15 18 20 25 30 
Q1=11 Q3I=20 
Cuartiles para datos agrupados: 

n 3n 
i—l ma i-l 
Q =L, +4 O, =L, +4 
¡ o Ji 


En donde: 
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Lir: es el límite inferior real de la clase cuartilica. 

N: es el tamaño de la muestra. 

FI: es la frecuencia de clase cuartílica. 

Fi-1: es la frecuencia de clase anterior a la clase cuartílica. 
|: es el tamaño del intervalo. 


Para la tabla de salarios de la compañía P&R, encontrar: 
a. Los cuartiles Q, Q YQ, 
b. Decil D, 


c. Percentil Po 


¡E A NN 
250,00-259,99 E B 
0 
6 


290,00-299,99 0 

300,00-309,99 

310,00-310,99 
Ee 


soluciones: 


F 





AA O 


a. Cuartiles Q1, Q2, Q3 


1+05 g 
4 
a.1. = 260 + —-— (10) = 
Q, T (10) 





Q, = 260+ a = 268,25 
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a.2. Q, = 270+—4—— 10) 


Q, =270+ ES (10) =279,06 


3405 _ ye 
a.3. Q, = 290+ (10) = 


O, =290+ == (10) = 290,75 





D, =289+3,57 =283,57 


Cc. P,= 





p, 2904 2-4 
10 


P, =290+4=294 
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2.3.4. Amplitud de variación (Rango). 
Es la medida más simple de dispersión y se obtiene al establecer la 
diferencia entre el máximo y el mínimo de los datos cuantitativos. 


Amplitud de variación = Máximo — Mínimo 


El valor obtenido nos brinda la información en relación al intervalo entre los 
valores límites en los que se observaron los datos; su utilización está más 
ligada al control estadísticos de procesos y no es muy utilizada como medida 
de dispersión, ya que se ve muy influenciada por la presencia de los valores 
extremos tanto inicial como final. 


Así: para determinar la amplitud de variación de las siguientes edades: 25 43 
28 32 27 39 40 29 28 33 36 30, se tiene el Máximo = 43 y el Mínimo = 25 


Amplitud de variación = 43 -— 25 = 18 


Este valor, permite también comparar con estudios de la misma naturaleza y 
establecer con buen criterio que el conjunto de datos que tenga la menor 
amplitud de variación, será el que tenga menos variabilidad o menor 
dispersión. 


2.4. Medidas de dispersión. 

Las medidas de dispersión están encaminadas a cuantificar los próximos o 
alejados que están los datos de la muestra de un punto central. Estas 
medidas indican por un lado el grado de variabilidad que hay en la muestra y, 
por otro, la representatividad de dicho punto central, ya que, si se obtiene un 
valor pequeño, eso significará que los valores se concentran entorno a ese 
centro (por lo que habrá poca variabilidad y el centro representará bien a 


todos). 
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En cambio, si se obtiene un valor grande, significará que los valores no están 
concentrados, sino dispersos (por lo que habrá mucha variabilidad y el centro 


no será muy representativo). 


Las medidas de dispersión absolutas dependen de las unidades en las que 
se miden las observaciones, siendo las más conocidas la varianza muestral y 


la desviación típica muestral, que no es más que la raíz cuadrada de la 
varianza muestral: Varianza ($ ) y desviación típica (s). 


2.4.1. La varianza. 
Medida del cuadrado de la distancia promedio entre la media y cada 


observación de la población, por lo que no se puede comparar directamente 
con las medidas de posición, por ejemplo, con la media. Para obtener una 


medida en las unidades de los datos, se considera la desviación típica: 


2 Pua : 
La varianza, $ , se calcula con la siguiente fórmula en el caso de muestras: 


—1 2 —=y 2 n 
y? A a S 
N iz 


n 
2 
q > x = u) 
La varianza de población: N 
y? e >S fa -xy 
La varianza de datos agrupados de muestra: n—] 
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Para la resolución del siguiente problema: En un almacén se determinó en 
una semana el ingreso de clientes por día, obteniéndose los siguientes 
resultados, lunes: 250, martes: 265, miércoles: 243, jueves: 225, viernes: 274 


y sábado 294. Calcular la desviación media de estos datos. 
Primero: 


Se calcula la media aritmética y luego se determina los valores de absolutos 


de las desviaciones de las observaciones frente a la media aritmética. 


Número de clientes a Desviación absoluta 
265-258,5 = 6.5 


274-258,0 = 15,5 


La interpretación de este resultado, nos indica que en promedio 19.2 clientes 





por día están alejados o dispersos los datos obtenidos en este estudio, en 


relación con la media diaria de visitas que es de 258.5 clientes por día. 


Nomenclatura 


2 , i 
O” = varianza de la población 
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ži = valores de las observaciones de la población o muestra 


fi = frecuencia de cada intervalo 
u = media aritmética poblacional 


N = número de observaciones de la población 
2 i 

$ = varianza de la muestra 

x = media aritmética de la muestra 


n = número de observaciones de la muestra 


Para calcular la varianza es necesario adecuar la tabla de la siguiente forma: 


Cantidad de 


Calificación estudiantes Marca de (x; — Xy f(x; - Xy? 
clase x; 
A 
(0-2] 2 1 29.16 58.32 
(2 — 4] 4 3 11.56 46.24 
(4 — 6] 8 5 1.96 15.68 
(6 — 8] 16 y 0.36 5.76 
(8 — 10] 10 9 6.76 67.6 
Z 40 z 193.6 


La fórmula para el cálculo de la varianza del problema, es 
2 Y fi(x; — X)? 
Ss — erre 
n—1 
193.6 


40-1 


2 


s? = 4.96 puntos? 
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2.4.2. Desviación estándar. 


Es la medida más frecuentemente usada de variabilidad y se calcula como la 
raíz cuadrada de la varianza. 


Características 


e Expresa la cantidad de variabilidad promedio en una distribución. 


e Permite determinar cómo se distribuyen los valores en relación con la 
media 


e Su fórmula es indistinta para distribuciones de datos originales o 
agrupados. 


e Para solucionar las complicaciones que se tiene con la varianza, se halla 
la raíz cuadrada de la misma, es decir, se calcula 


e |a desviación estándar es un número pequeño expresado en unidades 
de los datos originales y que tiene un significado lógico. 


e A pesar de lo anterior, es difícil describir exactamente qué es lo que 
mide la desviación estándar. Sin embargo, el teorema de Chebyshev 
establece que, para todo conjunto de datos en una distribución, se 
cumple lo siguiente. 


oOo 9009 7 96 z ' 





j 
i 
i 
I 
i 
i 
I 
i 
i 
I 
i 
i 
4 





<e p - = - 
` 

`~ 

as 

-~ 

- 

N i 
A g 
` 

ita 

~ 

+ 

+ 

`~ 

` 


pm — 30 p -— 20 pla — O 


e 
~ 


p + 


u +o = al 68% de los datos de una distribución 


u + 20 = al 95% de los datos de una distribución 
u t 30 = al 99.74% de los datos de una distribución 
Fórmula poblacional 


Fórmula muestral 


© 
sao 


Nomenclatura 

do = desviación estándar poblacional 
s = desviación estándar muestral 
Calcule las desviaciones estándar de; 


El número de pacientes atendidos en emergencias en una clínica privada de la ciudad, en un periodo 


de 8 días del mes pasado fue: 3 1 5 8 2 4 8 3 Calcule la desviación estándar: 





. Se tiene que 
nm 
y_ 3+t1+5+8+2+4+8+3_34 
X= 425 


La formula de la varianza muestral 


742 
o n—i 
Reemplazando los datos en la formula, se tiene. 
(3 — 4.25) + (1 — 4.25) + (5 — 4.25) + (8 — 4.2514 
a  +(2— 4.25)? + (4— 4.25)? + (8 — 4.25)? + (3 — 4.25)? 
A E 


má 


8-1 


5” =6.79 pacientes 


Aplicando la fórmula de la desviación estándar 


= 1.5625+ 10.5625 + 0.5625 + 14.0625 + 5.0625 + 0.0615 + 14.0625 + 1.5625 
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< = 16,79 


s = 2.61 pacientes 


2.5. Medidas de dispersión relativa. 
Cuando el objetivo es realizar comparaciones, no resulta adecuado comparar 


magnitudes absolutas, ya que las unidades no son siempre comparables. 


Cuando se pretende comparar la dispersión de variables medidas en distintas 


unidades o variables con distinto orden de magnitud, es necesario relativizar. 


2.5.1. Coeficiente de variabilidad 


Una forma de relativizar es considerar la dispersión en relación al valor 
absoluto de la media, consiguiendo así el coeficiente de variación, que suele 


ser interpretado en términos de proporción o porcentaje: 


El coeficiente de variación es la razón (cociente) de la desviación estándar y 


la media aritmética expresada con un porcentaje. 


Se presenta en su forma relativa, se encuentra simplemente 
sustituyendo valores o en su forma porcentual se multiplica por 100 


PARA POBLACIÓN PARA MUESTRA 
o= Er" << Gesta [2102 
i Te 4 S (desviación estándar 
> CV=2 (desviación estándar) e CV= C + : ) 
u (media) X (media) 


- . 


Media aritmética o promedio 
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Características 


Se utiliza cuando no es posible una comparación directa de dos o más 
medidas de dispersión y muy útil cuando: 


e Los datos están en unidades diferentes (como dólares y días de 
inasistencia) 


e Los datos están en las mismas unidades, pero los valores medios están 
muy distantes (como sucede con los ingresos de ejecutivos superiores, y 
el ingreso de empleados no calificados) 


Fórmula 


Se calcula con la siguiente fórmula: 


mm. 
x| 
Nomenclatura 


CV = coeficiente de variación 


S = desviación estándar, 


| X- |= valor absoluto de la media aritmética. 


En la vida cotidiana debemos tomar decisiones y usualmente se lo hace 
comparando información. Las comparaciones de datos dispersos son muy 


útiles, como se verá en el siguiente ejemplo: 
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Comparación de variaciones en diferentes grupos de 
datos 


Los pesos de los toros de lidia de una ganadería se distribuyen con una media 
x = 500 kg y una desviación típica O = 40 kg. 

Los pesos de los perros de una exposición canina tienen una media x = 20 kg y 
una desviación típica © = 10 kg, 





Cuando se quieren comparar conjuntos de datos con medias aritméticas 
diferentes o con medidas diferentes necesitamos calcular El Coeficiente de 
Variación ya que la Desviación Estándar o Típica resulta insuficiente para 
realizar un análisis de los datos dispersos de una muestra o una población 


con diferentes enfoques de una situación determinada. 


El Coeficiente de Variación es útil en la vida cotidiana, por ejemplo: saber la 
variación del costo del hospedaje entre dos cadenas de hoteles diferentes en 
una temporada determinada del año y en diferentes lugares turísticos para 


decidir cual paquete vacacional contratar. 
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El Coeficiente de Variación es de gran ayuda para la toma de decisiones 
acerca de sucesos que se quieren comparar y tiene la ventaja de que se 


puede representar en porcentaje y sin unidades. 


Veamos en el siguiente ejercicio su aplicación: El número de pacientes 
atendidos en emergencias en una clínica privada de la ciudad, en un periodo 
de 8 días del mes pasado fue: 3 1 5 8 2 4 8 3. Calcular el coeficiente de 


variación. 
La media aritmética es X = 4.25: la varianza es = 6.79 pacientes 
La desviación estándar es s = 2.61 pacientes 


La fórmula para el cálculo del coeficiente de variación es 


A ia al 


14251 





> 


Cv =1XI  Reemplazando valores, se tiene: 


CV =0.61 pacientes 


2.6. Medidas de forma. 


Consideraremos dos medidas que proporcionan una idea de la forma de 
cómo se distribuyen los datos. Su cálculo no es tan sencillo como el de las 
medidas de posición y dispersión estudiadas y lo que nos interesa es su 


interpretación. 
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2.6.1. Coeficiente de asimetría. 
El coeficiente de asimetría de Fisher toma valor O cuando la distribución de 


los datos es simétrica con respecto a la media. Valores positivos de este 
coeficiente indicarán la presencia de asimetría positiva (más datos con 
valores superiores a la media), mientras que valores negativos son 
indicativos de una asimetría negativa (más datos con valores inferiores a la 


media). Se calcula como: 


Cr CA E Qe -7 = 


E= Ea 
Í S n sn 


Para cuantificar la asimetría de unos datos, podemos utilizar los cuartiles. Si 
la distribución es simétrica, la distancia entre Q3 y Q2 (que contiene un 25 % 
de la muestra) y entre Q2 y Q1 (otro 25 %), debería ser la misma (es decir, 
Q3 - Q2 = Q2 - Q1). Así, si Q3 - Q2 > Q2 - Q1, es indicativo de asimetría 


positiva. 


Por otro lado, si Q3 -Q2 < Q2 -Q1, tendríamos indicios de asimetría 
negativa. Para que el resultado no dependa de la dimensión de los datos, 
podemos utilizar el siguiente índice de asimetría que toma valores en [-1; 1], 


basado en los cuartiles: 


_ (Q3 - Q2) - (Q2 - Q1) 


= (Q3 - Q2) + (Q2 - Q1) 
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Otro coeficiente de asimetría, que resulta útil en el caso de que los datos 
presenten una única moda. El coeficiente de asimetría de Pearson viene 


x — Mo 
yMo = 22 = 
dado por: S Basado en la mediana, tenemos el 
y 3(x — Me) 


siguiente índice: S 
Coeficiente de curtosis. 


El coeficiente de curtosis mide el grado de apuntamiento de la distribución. 
Su fórmula es: 


2.4 4 
Ss n S 


MAY MAY r 
ac- 10 E Ke 1) A 
n e 


si C > 3; se dice que la distribución de frecuencias es leptocúrtica. 


si ES 3 la distribución de frecuencias es platicúrtica. También se puede 


modificar la expresión anterior y considerar ? Epa T3 ya que 3 es el 
valor del coeficiente cuando los datos vienen de una distribución Normal (que 


es la de referencia). 






Leptocúrtica 
De este modo, tendremos 


Mesocúrtica distribuciones leptocúrticas si 


yC>0 y platicúrticas si 


vyC<0O 
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2.6.1. Representación de medidas: el diagrama de caja. 

Las representaciones gráficas que se han descrito en la sección anterior 
utilizan los datos observados para su construcción o la información que se 
obtiene en las tablas de frecuencias. A partir de las medidas características 
que se han descrito, se puede construir una nueva representación, el 


diagrama de caja. 


El diagrama de caja se construye a partir de las siguientes medidas: 


- El primer y el tercer cuartil, Q1 y Q3, que delimitan la caja central. La 
longitud de la caja viene dada por el RIC, que es una medida de 
dispersión absoluta. 


- Los límites inferior y superior (en la Figura 4, son los segmentos 
horizontales superior e inferior) se calculan como: 


LI = máx{míin{xi}; Q1 - 1:5(Q3 - Q1)); 
LS = míin{máx{xi}; QS + 1:5(Q3 - Q1)}: 
En el cálculo de los límites inferior y superior se utiliza el RIC = Q3 - Q1. 
- La mediana (Q2) se representa con una línea horizontal en la caja central. 


El diagrama de caja se utiliza para determinar los valores atípicos de la 
muestra, que son datos que difieren numéricamente de los demás. 
Formalmente, los datos atípicos son aquellos datos que quedan fuera del 
intervalo (Ll; LS). 
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Si en lugar de considerar los límites inferior y superior construimos el 
intervalo (Lle; LSe) donde Lle = Q1 - 3RIC y LSe = Q3 + 3RIC, los datos que 


caen fuera de este intervalo se denominan extremos. 


Algunos paquetes estadísticos hacen la distinción entre atípicos y extremos, 


representándolos de distintas formas en las salidas gráficas. 


En la siguiente figura, se puede observar la presencia de datos atípicos altos, 
representados con puntos. Sin embargo, un problema del diagrama de caja 


es que no permiten observar la presencia de multimodalidad. 
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2.7. Tipificación de puntajes Z. 


34,13% 





2,15% 


2.7.1. Propiedades de los puntajes Z 


Para poder apreciar mejor las propiedades de las calificaciones 
z, veamos algunas de sus propiedades. 


1. La suma de las calificaciones es cero $ z =0 


¿oo 


2. La media de las calificaciones z es cero z = =— = 


3. La suma de los cuadrados de las R z es igual a N, así 
2 
>z = N 


Esta característica se puede demostrar matemáticamente: 


NO 
W - 
$ =-& = SÓ (ax) = = LO x}? = 
s s Ley 
4. La desviación estándar y la varianza de las E z es uno 
rn 
o, =0, =Í 

S 

Se puede demostrar: 0. = “7 — 


Z 


puesto que: z= O, entonces o? a | 
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¿Cuál es la importancia de la transformación a una calificación 
z?. simplemente ésta: sí la población de las calificaciones de una 
variable dada es normal, podemos expresar cualquier 
calificación como un rango percentil refiriendo nuestra z a la 
distribución normal estándar. Además, puesto que las 
calificaciones Z representan números abstractos 
(adimensionales) en oposición a los valores concretos de las 
calificaciones originales (centímetros, kilos, coeficientes, etc.), 
podemos comparar la posición de un individuo en una variable, 
con su posición en una segunda variable. Para entender esta 
importancia característica de las calificaciones z, tenemos que 


referirnos a la distribución normal estándar. 


2.7.2. Distribución normal estándar. 

La distribución normal estándar tiene una u de 0, una © de 1, y un área total 
igual a 1,00. Hay una proporción fija de casos entre una línea vertical, u 
ordenada, erigida en cualquier punto y una ordenada erigida en cualquier otro 
punto. 

(La proporción de casos entre dos valores dados de la variable es una 
constante). tomando unos cuantos puntos de referencia a lo largo de una 


curva normal, podemos enunciar lo siguiente: 


1. Entre la media y 1 desviación estándar por encima de la media se 
encuentra el 34,13% de todos los casos. Análogamente, el 34,13% de 


todos los casos se encuentra entre la media y -1 desviación estándar por 
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debajo de la media. Dicho de otra manera, 34,13% del área bajo la curva 
se encuentra entre la media y 1 desviación estándar por encima de la 
media, y 34,13% del área está comprendida entre la media y -1 desviación 
estándar. 

. Entre la media y 2 desviaciones estándar por encima de la media, se 
encuentra el 47,72% de los casos. Puesto que la curva normal es 
simétrica, 47,72% del área también está comprendida entre la media y -2 
desviaciones estándar. 

. Finalmente, entre la media y 3 desviaciones estándar por encima de la 
media se encuentra el 49,87% de los casos. Análogamente, el 49,87% de 


los casos está ubicado ente +3 desviaciones estándar. 


Ahora, al transformar las calificaciones de una variable normalmente 


distribuida en calificaciones z expresamos en realidad estas calificaciones en 


unidades de la curva normal estándar. Para cualquier valor dado de x con 


una cierta proporción de área más allá de este, existe un valor 


correspondiente de z con la misma proporción de área más allá de él. Por 


ejemplo, si tenemos una población en la cual, u=30 y o=10, la z de la 


calificación en la media (x=30) será igual a cero, y las calificaciones z que 


están 1 desviación estándar por encima y por debajo de la media (x=40 y 


x=20) serán +1,00 y -1,00, respectivamente. 


85 


2.7.3. Determinación de áreas entre dos calificaciones dadas bajo la 
curva normal. 


La discusión bajo el área de la curva normal permite determinar el porcentaje 
de las áreas entre dos puntos cualesquiera, haciendo uso de los valores 
tabulares del área bajo la curva normal (tabla A). La columna de la izquierda 
encabezada por z representa la desviación respecto a la media expresada en 
unidades de desviación estándar. Refiriéndonos al cuerpo de la tabla, 
podemos determinar la proporción del área total que se encuentra entre una 
calificación dada y la media (columna B) y el área más allá de una calificación 
dada (columna C). Así si un individuo obtuvo una calificación de 24,65 en una 
variable normalmente distribuida con u= 16 y o= 5, su calificación z sería: 
24,65-16 
E ÓS 


Remitiéndonos a la columna B en la tabla A, encontramos 0,4582 o sea que 


1,73 


45,82% del área situada entre dicha calificación y la media. Puesto que en 
una distribución simétrica 50% del área también está situada por debajo de la 
media, podemos concluir que el 95,82% del área total está ubicada por 
debajo de una calificación de 24,65. Nótese que ahora podemos interpretar 


esta calificación como un rango percentil de 95,82. 


Supongamos que otro individuo obtuvo una calificación de 7,35 en la misma 
variable normalmente distribuida. Su calificación z sería: 


735-16 


Ta N 
5 


zs 
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2.7.4. Relaciones bajo la curva normal entre datos y puntajes Z: 


Relaciones entre calificaciones originales, calificaciones z y rangos 
percentiles de una variable normalmente distribuida en la cual ¿1=50 y 0=10 





Calificaciones brutas 20 30 40 50 60 70 80 


Calificación z -3 -2 -1 0 +1 +2 +3 


Puesto que la curva normal es simétrica, en la tabla A se dan las áreas 
correspondientes a los valores z positivos. Los valores z negativos tendrán 
exactamente las mismas proporciones que sus contrapartes positivas. Así, el 
área entre la media y la z de -1,73 es también 45,82%. El rango percentil de 
una calificación por debajo de la media se puede obtener ya sea sustrayendo 
45,82% de 50% ya sea directamente de la columna C. En cualquier caso, el 


rango percentil de una calificación de 7,35 es 4,18. 


Debe notarse cuidadosamente que estas relaciones se aplican 
exclusivamente a las calificaciones provenientes de poblaciones 
normalmente distribuidas. Transformar calificaciones originales en 
calificaciones estándar no altera, de ninguna manera, la forma de la 
distribución original. El único cambio es convertir la media a cero y la 


desviación estándar a uno. Así, sí la distribución original de calificaciones no 
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es normal, la distribución de calificaciones z será no normal. En otras 
palabras, la transformación a z no convertirá una distribución no normal en 


una distribución normal. 


La figura b, aclara aún más las relaciones entre las calificaciones originales, 
las calificaciones z y los rangos percentiles de una variable normalmente 


distribuida. En ella se toman u=50 y 0=10 


2.7.5. Ejercicios de determinación de áreas de puntajes z bajo la curva 
normal. 


Tomemos como ejemplo varios problemas en los que suponemos que la 
media de la población u=100 en una prueba estándar de coeficiente 


intelectual (IQ), y la desviación estándar 0=16 Se supone que la variable está 


normalmente distribuida. 


Ejercicio 1: 

Juan Domingo obtiene una calificación de 125 en una prueba IQ. ¡Qué 
porcentaje de casos se encuentran entre su calificación y la media? ¿Cuál es 
su rango percentil en la población? 


Al empezar, es necesario hacer un diagrama simple que represente las 
relaciones en cuestión. 


área total por debajo de 
una calificación de 125 


u 125 
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Proporción de área por debajo de una calificación de 125 en una distribución 
normal con u=100 y o=16. Encontrar el valor de z correspondiente a x=1205, 
restamos la media de la población de 125 y la dividimos por 16. 

125-100 
(1221036 


16 - buscamos1,56 en la columna A (Tabla), cuyo 
correspondiente valor de la columna B es 0,4406, es decir el 44,06% del área 
está ubicada entre la media y 1,56 de desviación estándar por encima de la 
media. El rango percentil de Juan Dominguez es, por tanto, 50+44,06 = 
94,06. 


Ejercicio 2: 
María Rodríguez obtiene una calificación de 93 en una prueba de C.I. ¿Cuál 
es su rango percentil en la población? 


93-100 
= = 0,44 
16 





Z 


El signo menos indica que la calificación está por debajo de la media. 
Buscamos 0,44 en la columna A (tabla A), cuyo valor correspondiente en la 
columna C es de 0,33, es decir que 33% de los casos caen debajo de sus 
calificaciones. Así, tenemos que su rango percentil es de 33. 


área por debajo de 
la calificación 93 


93 u 
Proporción de área por debajo de una calificación de 93 en una distribución 
normal con u=100 y 0=16 
Ejercicio 3: 
¿Qué porcentaje de los casos se encuentra entre una calificación de 120 y 
una calificación de 88? 


Nótese que para responder esta pregunta no restamos 88 de 120 y dividimos 
por x. Las áreas de una curva normal de probabilidad se designan con 
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relación a la media como punto fijo de referencia. Debemos por tanto, 
calcular separadamente el área entre la media y una calificación de 120 y el 
área entre la media y una calificación de 88. Sumamos después las dos 
áreas para resolver el problema. 


área entre las calificación 
de 88 v 120 





88 u 120 
Proyección del área entre las calificaciones de 88 y 120 en una distribución 
normal con u= 100 y o= 16 
algoritmo: 
a. Encontrar la z correspondiente a x=120 
120-100 
pa A 


=:1,25 
16 


b. Encontrar la z correspondiente a x=88 
88—100 ja 

16 

c. Encontrar las áreas requeridas por referencia a la columna B (tabla A): 
área entre la media y z=1,25 es 39,44% 
area entre la media y z=-0,75 es 27,34% 

d. Sumar las dos áreas obtenidas 
Así, el área entre 88 y 120 = 66,78% 





” 


Ejercicio 4: 
¿Qué porcentaje del área está ubicado entre la calificación de 123 y otra de 
135? 
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Una vez más, no podemos obtener la respuesta directamente. Debemos 
encontrar el área entre la media y la calificación de 123 y restarla del área 
entre la media y la calificación de 135. 


área entre las calificación 
de 123 y 135 





u 123135 
Proyección del área entre las calificaciones de 123 y 135 en una distribución 
normal con u= 100 y o= 16 


algoritmo: 
a. Encontrar la z correspondiente a x= 135 
123-100 T 
E 
b. Encontrar la z correspondiente a x= 123 
123-100 
e A 
16 
c. Encontrar las áreas requeridas en la columna B (tabla A) 
El área entre la media y z=2,19 es 48,57% 
El área entre la media y z=1,44 es 42,51% 
d. Restar para obtener al área entre 123 y 135. El resultado es: 48,07 - 


42,51 = 6,06% 


Ejercicio 5: 

Dada una distribución referente a las puntuaciones obtenidas en la 
realización de una entrevista en la cual la media es igual a 80 y la desviación 
típica 7,5, se pide: 


a) Determinar en unidades zeta, el valor de x=90. 

b) Porcentaje para x< 90. 

c) Porcentaje de entrevistados que obtuvieron puntuaciones entre 60 y 70. 
d) Entre 60 y más. 
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e) Probabilidad de localizar a un entrevistado con una puntuación de más de 
60. 

f) Probabilidad de elegir tres entrevistados que hayan logrado puntuaciones 
de más de 90. 

g) Probabilidad de encontrar a un encuestado con una puntuación de 62 o 
menos, o de 90 y más. 


a) x= 80, x=90, S=7,5 


La puntuación 90 se encuentra a 1,3 unidades de desviación típica por 
encima de la media. 


b) P(x < 90) 

El área pedida es el área situada entre z=0 y z=1,3 + área entre z=0 y Z= -3. 
P(z=0 y z=1,3) 

área = 0,4032 = 40,32% 

x < 90 = 50 + 40,32 = 90,32% 





80 90 
c) P(60 <x < 70) 
x =60 x, = 70 
60-80 -20 26 
O = — Tay 
para 75 T3 
60-80 -20 
= ——— = —— = -2,6 
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El área pedida será: 


área entre (Z=0, Z=-2,6) - área entre (z=0, z=-1,3) 


área = 0,4993 - 0,4032 = 0,0921 


El 9,21% serán las personas que tengan una puntuación entre 60 y 70. 


Si suponemos que hay 1000 personas en la muestra, el número de personas 


con puntuaciones entre 60 y 70 será 0,0921x1000=92,1 = 92 personas. 





1 1 
-2,6 -1,3 
d) P(x 2 60) 
60-80 -20 
gae A ELO 
7,5 7,5 


área entre z=0 y z= -2,6 = 0,4953 
área pedida 0,4953 + 0,50 = 0,9953 o 99,53% 





60-80 -20 


99,53% como en el caso anterior. 
f) P(x > 90), P(x > 90). P(x > 90) 
x=90 
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P=P(z=0, z=3) - P(z=0, z =1,3) = 0,50 - 0,4032 = 0,0968 
0,0968 es la probabilidad de encontrar a un encuestado con una puntuación 


de más de 90. 
Probabilidad de elegir a tres: 


PS AS, NS) = PCS, ).PCS, ).P(S,) = 
= 0,0968. 0,0968. 0,0968 = 0,000907; 0,0907% (por ser sucesos 


independientes). 
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P( 62 >x >90) 

P(x < 62) = 50 - 49,18 = 0,0082 = 0,82% 

P(x > 90) = 50 - 40,32 = 0,0968 = 9,68% 

P(AV B)= P(A)+P(B) = 0,0082 + 0,0982 + 0,0982 = 0,105; 10,5% 


Tabla A: proporciones de área bajo la curva normal 


(A) (B) (C) (A) (B) (C) (A) (B) (C) 
Z área entre la área más Z área entre la área más Z área entre la área más 
media y z allá de z media y Z allá de z media y z allá de z 





| 0,44 | .1700 3300 | 0.99 | .3389 1611 4382 0618 


Tabla A (continuación) 


Z 


2.00 
2.01 


2.02 
2.03 
2.04 


4798 0202 4956 .0044 4993 .0007 


(B) 
área entre la 
media y Z 


.4772 
.4778 
.4783 
.4788 
4793 


(C) 
área más 
allá de z 


0228 
0222 
0217 
0212 
0207 


Z 


2.57 
2.58 
2.59 
2.60 
2.61 


(B) 
área entre la 
media y Z 


4949 
4951 
4952 
4953 
4955 


(C) 
área más 
allá de z 


0051 
.0049 
0048 
.0047 
0045 


Z 


3.14 
3.15 
3.16 
3.17 
3.18 


(B) 
área entre la 
media y Z 


4992 
4992 
4992 
4992 
4993 





(C) 
área más 
allá de z 


0008 
0008 
0008 
0008 
0007 





2.15 | .4842 0158 2.72 | .4967 0033 3.29 | .4997 0003 


2.16 | .4846 0154 2.73 | .4968 0032 3.30 | .4998 0002 
2.17 | .4850 0150 2.74 | .4969 0031 3.31 | .4998 0002 
2.18 | .4854 0146 2.75 | .4970 0030 3.32 | .4999 0001 
2.19 | .4857 0143 2.76 | .4971 0029 3.33 | .4999 0001 


2.20 | .4861 0139 2.77 | .4972 0028 3.90 | .49995 00005 
2.21 | .4864 0136 2.78 | .4973 0027 4.00 | .49997 00003 





2.8. Recta de regresión. 


Existen muchas situaciones que requieren el análisis combinado de dos ó 
más variables, debido a las posibles relaciones entre ellas. Para variables 
cuantitativas (continuas), una forma de representar la dependencia entre 
ellas es a través de la recta de regresión. 
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2.8.1. Vector de medias. Covarianza y correlación. 


Supongamos que tenemos una variable bidimensional (X; Y) y que 
disponemos de las observaciones en una muestra de tamaño n, 


q y) ia 


Se denomina vector de medias al vector cuyas componentes son las medias 


muestrales de las variables: (% »? 


Para representar la dispersión podemos considerar los valores de las 
2 2 
varianzas de cada variable por separado, es decir, ** y Yy , pero quedaría 


sin resumir la variabilidad conjunta de ambas. Por eso se introduce la 
covarianza. La covarianza entre dos variables X e Y, que es una medida que 
indica la variabilidad conjunta de X e Y . Se calcula como: 


LE E B 1L ENS 
s ==) (x-0 -y= x,y, - Xy = 
N i N iz 


2.8.2. Covarianza y correlación. 
El coeficiente de variación, como ya hemos visto, se utiliza para comparar la 


dispersión de variables. Si lo que queremos es comparar individuos de 


distintos grupos, debemos utilizar la tipificación de datos. 


: : v : 2 
A partir de la muestra %17 Xa con media X y varianza $“, los datos 





tipificados se construyen como: S de manera que la muestra 


resultante *: ĉn tendrá media 0 y varianza 1. La tipificación de datos 
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permite comparar distintos grupos, así como la posición relativa de las 


observaciones dentro de cada uno. 


El signo de la covarianza proporciona información sobre el tipo de relación 
que puede existir entre las variables. 


De este modo: 
) a l Ss, 
a) Si la relación entre las variables es directa, entonces “* >Q. 
dz | Y 
b) Si la relación entre las variables es inversa, entonces “> <Q. 
, | Loi | So 
c) Si no existe relación lineal entre las variables, entonces “-" =0. 


Las parejas de datos (*>%) con į = 1; ........ ` n, de las dos variables (X; Y ) 
(también llamada variable bidimensional), se pueden representar a partir de 


una nube de puntos o diagrama de dispersión. 


Esta representación gráfica se construye representando sobre un plano los 


valores de los puntos observados. 


En la Figura siguiente podemos ver dos ejemplos de relaciones entre 
variables. La covarianza de los datos de la izquierda es positiva, mientras 
que la covarianza de los datos de la derecha es negativa. Así, diremos que la 
relación entre X e Y es directa cuando valores altos de X se corresponden 
con valores altos de Y . La relación se dice que es inversa si valores altos de 
X se corresponden con valores bajos de Y , o viceversa. 
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Relación directa Relación invwverz=za 


y 

+ 
b 

0 


-2 
$ 
(i 
k 

a 

-2 





La covarianza está afectada por las unidades de medida de las variables, por 
lo que definiremos una medida característica para explicar la relación lineal 


entre variables que sea adimensional: el coeficiente de correlación lineal. A 


n 


partir de una muestra de datos {(xi; yi) Fiat , el coeficiente de correlación 


lineal se calcula como: 





S S 
ss donde » es la covarianza muestral y a x, son las 


respectivas desviaciones típicas muestrales. 


El coeficiente de correlación lineal no tiene dimensiones y toma valores en 


[-1; 1]. Valores cercanos a 1 nos indicarían una relación lineal directa, 
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mientras que valores cercanos a -1 darían una relación lineal inversa. En la 
práctica, si el coeficiente de correlación r = 0, esto indica que no existe 
relación lineal entre las variables, pero podría ocurrir que entre ellas hubiese 
otro tipo de relación no lineal. Observa que r sólo cuantifica relaciones 


lineales. 


Cuando existe una relación lineal entre dos variables, podemos tratar de 
buscar un modelo que describa una en función de otra. La regresión lineal 
simple consiste en aproximar los valores de una variable a partir de los de 
otra utilizando una relación de tipo lineal. La recta de regresión de Y sobre X 


tendrá la siguiente expresión: y = a + bx; 


donde a representa la ordenada en el origen o intercepto y b es la pendiente 
(indica la razón de cambio en Y cuando X varía en una unidad). Esta 
expresión nos dice que, cuando x = 0, entonces y = a. La variable X se 
denomina variable explicativa o independiente, mientras que la variable Y 


será la variable respuesta, o variable dependiente. 


2.9. Estadística inferencial. 
La estadística inferencial o inductiva hace referencia a la elaboración o 


interpretación de los datos obtenidos por varias muestras para predecir o 
generalizar, lo que probablemente ocurrirá en otras muestras 


correspondientes a la misma población. 
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Se trata entonces de enseñar cómo se pueden utilizar los resultados del 
estudio de una o varias muestras para poner a prueba o enjuiciar alguna 
hipótesis sobre otras muestras distintas o sobre la población entera a la que 


pertenecen. 


Es el proceso de analizar los datos, tratando de traducir lo que ellos dicen, en 
términos de probabilidad con el fin de obtener conclusiones respecto a la 


población. 


Se pueden hacer inferencias (o inducciones) acerca de parámetros 
(características) poblacionales de dos maneras. Se estiman los valores de los 
parámetros (Estimación) o podemos tomar decisiones con respecto a ellos 


(Test de Hipótesis). 


Se suele dar que en muchas circunstancias que las decisiones se deben 
tomar con base solo en la información de la muestra. Un gerente de control 


de calidad debe determinar si un proceso funciona correctamente. 


También uno de marketing debe determinar si una nueva estrategia de 
mercados aumentará las ventas. O si un auditor debe determinar si los libros 
de una empresa son auténticos. Al llegar a este tipo de conclusiones, el 
tomador de decisiones querría cerciorarse, hasta donde sea posible, de que 


ha llegado a la conclusión correcta. 
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2.9.1. Definiciones: 


Variable: característica o fenómeno que puede tomar diferentes valores, Así, 
peso, cociente intelectual y sexo son variables dado que pueden tomar 
distintos valores cuando se observan diferentes individuos. Una variable se 
diferencia de una constante ya que el valor de ésta nunca puede variar, por 


ejemplo, pi. 


Datos: números o medidas que han sido recopiladas como resultado de 
observaciones. Pueden ser recuentos (datos de frecuencia) tales como el 
número de individuos que prefieren a un candidato socialista a la presidencia 
del país, o pueden ser calificaciones educativas. Los datos de frecuencia 


también se llaman enumerativos o categóricos. 


Parámetro: cualquiera característica de una población que sea medible, por 


ejemplo, la proporción de votantes mujeres del país. 


Población o universo: conjunto completo de individuos, objetos o medidas 
que poseen alguna característica común observable, Así, todos los 


ciudadanos de un país en edad de votar constituyen una población. 
Muestra: Un subconjunto de la población o universo. 


Estadístico: número resultante de la manipulación de ciertos datos iniciales 


de acuerdo con determinados procedimientos específicos 
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Parámetros y estadísticas. 


Matemáticamente, podemos describir muestras y poblaciones al emplear 
mediciones como la media, la mediana, la moda y la desviación estándar. 
Cuando estos términos describen las características de una muestra, se 
denominan estadísticas. Cuando describen las características de una 
población, se llaman parámetros. Una estadística es una característica de 


una muestra y un parámetro es una característica de una población. 


2.9.2. Muestreo: 
El primer problema que plantea la estadística inferencial es el modo de 


elección de las muestras. A la forma de obtenerlas se le denomina muestreo. 


Existen diversos procedimientos o técnicas de realizar el muestreo, pero 


antes de ello es posible resolver las problemáticas siguientes: 


a. ¿Es representativa la muestra? ¿En ella se resumen o condensan las 


características generales de la población? 


b. Si es representativa, ¿hasta qué punto coinciden los datos obtenidos en la 


muestra con lo que se obtendrían en toda la población”? 


c. ¿cuál es el grado de certeza de que una cifra o estadigrafo obtenido de 


una muestra se dará también en la población? 


A mayor tamaño de la muestra, mayor eficiencia y seguridad en las 


generalizaciones que se realicen. Sin embargo, económica y materialmente 
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no es posible incluir a toda la población, sino que por el contrario se hace 
necesario seleccionar una muestra representativa de la población que se 


investiga y que posibilite la generalización de las conclusiones obtenidas. 


El muestreo es una técnica estadística de gran importancia que permite 


obtener muestras representativas de una población dada. 
Los tipos de muestreos pueden ser: 


e  Probabilísticos: donde todos los elementos tienen la misma probabilidad 


de salir elegidos en una muestra. 


e No probabilísticos: Por ejemplo: muestreo accidental (en la calle), 
muestreo intencional (lo decide el investigador), bola de nieve, casual 


(empleo de individuos al que se tiene acceso). 


Los muestreos probabilísticos siempre aseguran la representatividad de la 


muestra. 


Los métodos de muestreo probabilístico más empleados en las 


investigaciones pedagógicas son: 
e Aleatorio simple. 
e Aleatorio estratificado. 


e Aleatorio por conglomerados. 
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El muestreo aleatorio simple es el más sencillo, es el más conocido y el que 
alcanza mayor rigor científico. Resulta de tomar en una población de N 
elementos, una muestra de tamaño n, donde cada elemento de la población 
tiene la misma probabilidad (1/n) de ser incluido en la muestra. Puede ser 


con o sin repetición. 


2.9.3. El muestreo aleatorio simple. 
consiste en: 


1° Asignar un número a cada individuo de la población. 


2” Se calcula c= N/n, donde c (constante) es un número natural, N es el 


número de individuos de la población y n es el tamaño de la muestra. 


tm)? 


3° Se elige al azar un número “a”, comprendido entre 1 y c. 


tm) 


4” El número “a” será el primer individuo seleccionado. 
5° Los sucesivos individuos serían: a + c; a+2c...;a+ nc. 


El muestreo aleatorio estratificado se emplea cuando la característica 
estudiada no es homogénea; sin embargo, dentro de población hay grupos o 
partes que tienen, independientemente cierta homogeneidad. Por ejemplo, en 
un centro educativo; el sexo, grupo de edades; en una región educativa: 
escuelas urbanas, rurales y de montaña, en una población de maestros o 


padres: padres, clase media, ricos. 
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Esta técnica consiste en: 
- Dividir la población en varios estratos. 


- Dentro de cada estrato, se realiza un muestreo, por alguno de los 


procedimientos expuestos. 
- — El número de individuos de cada estrato se decide por: 
a. Afijación simple: la muestra total se divide en partes iguales. 


b. Afijación proporcional: se tiene en consideración la proporción de 
individuos de cada estrato. Por ejemplo, escuelas urbanas y rurales pero 
las rurales hay más de montaña. También se lo conoce como muestreo 


controlado, ponderado o dirigido. 


c. Afijación óptima: además de la proporción de cada estrato se tiene en 


cuenta la dispersión de los datos. 


El muestreo aleatorio agrupado o por conglomerados se utiliza cuando los 
individuos de la población constituyen agrupaciones naturales con respecto a 


las caracteristicas estudiadas. 


Por ejemplo, alumnos de un grupo docente o clase, escuelas de una región o 
zona. En este caso la unidad de muestreo no es el individuo, sino el 
conglomerado. Una vez definidos los conglomerados, estos se seleccionan 


por algún método de muestreo de los ya expuestos, de tal forma que el 
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número total de individuos resultante configure el tamaño de la muestra que 


se desea. 


2.9.4. Errores muestrales. 


Por mucho que se trate de ser objetivo en la selección de la muestra, estas 
no son nunca perfectamente representativas, siempre se cometen ciertos 
errores, entre ellos los más generales son: 


Debidos al azar, la casualidad o errores aleatorios. 


Debido a cierta parcialidad que introduce el investigador con sus criterios, se 
trata de errores de sesgo. 


El error muestral es la diferencia que existe entre un estadígrafo (muestra) y 
su correspondiente parámetro (población). 


Un estadígrafo es tanto más preciso, cuanto menor es su error muestral, es 
decir, cuanto más se aproxima a la medida del parámetro correspondiente de 
la población. 


De aquí el concepto de fiabilidad. decimos que un estadígrafo es fiable, 
cuando repetido varias veces en diversas muestras de características 
semejantes, se advierte cierta constante en él. 


Fiabilidad: constancia de un estadígrafo en muestras distintas de una misma 
población. 


Factores de los que depende la fiabilidad: 
Del número de casos. La precisión de una observación crece en la medida 


que se aplica a un número mayor de casos. 
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De la desviación. Cuando más reducida es la variabilidad o dispersión, el 
grupo de datos es más homogéneo, y que los casos iguales o semejantes no 
observados aún, se encontrarán en esa ráeducida zona. 


De la naturaleza de los casos. No es lo mismo mediciones sobre casos 
seleccionados que sobre casos tomados al azar. 


2.9.5. Inferencia. 
La inferencia estadística tiene su fundamento en teoremas del Cálculo de 


Probabilidades, este hecho de que los resultados vengan expresados en 
términos de probabilidades, es el que nos fuerza a ser prudentes en lo que su 


aplicación práctica se refiere. 


Por otra parte, las medidas que se utilizan en las Investigaciones Educativas, 
por referirse a aspectos cualitativos de indole psíquica y por lo general 
subjetiva, no son tan fácilmente medibles, por lo que tienen un carácter 
impreciso, aproximado, que están dentro de cierta probabilidad, pero que no 


se pueden prever con exactitud. 


Muchos de los datos obtenidos al evaluar variables en el campo de la 
psicopedagogía tienden a manifestarse de modo tal que al representarlas 
gráficamente se observa cierta analogía entre esas representaciones y las 
determinadas funciones matemáticas. Así por ejemplo, las medidas de 
ciertas variables cuantitativas continuas tienden a agruparse formando una 


curva que asemeja una campana, curva matemática de la función 
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exponencial, llamada ecuación de probabilidad y que denominaremos como 


curva normal. 





X=M=M, 


El adjetivo normal no tiene carácter valorativo, no quiere decir que 
las distribuciones diferentes a ella sean anormales. No obstante, es 
cierto que la mayoría de los datos se distribuyen de acuerdo a este 


tipo de curva. 


La curva normal es la representación gráfica de una ecuación de 
probabilidad. 


2.9.6. Características generales de la curva normal. 


En ella coinciden la: X, Me, Mo. 

Es simétrica respecto a sus valores centrales. 

Es asintótica con el eje de las abscisas. 

Entre dos valores fijos de sus abscisas hay siempre la misma área relativa, 
en todas las curvas normales. 


El área bajo la curva normal es igual a 1. 
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Si se cambia o varía la media, entonces la función se desplaza en el eje de 
las x. 
Si se cambia la desviación típica, la función se alarga o se acorta. 


La distribución normal (N) se caracteriza por los parámetros media y varianza 
( 4,07). 

u = media de la población 

o” = varianza de la población 
La normalización o estandarización de la distribución normal se refleja en la 


tabla a partir de los valores de u y o” 


es una variable 





Para estandarizar la variable se parte de que z = 


estandarizada de lo que se obtiene: 
La curva estandarizada tiene y =0 y o“=1. N (0,1) 


Entonces se dice que es simétrica con respecto al eje y z nos da el 
desplazamiento o corrimiento de cualquier curva normal para llevarla a la 


normal estandarizada. 
Matemáticamente se demuestra que si una población es normal ( 1,a ), la 


distribución formada por todas las medias posibles extraídas de ellas es 
también normal de media y de desviación típica, s = A 
Jn 


Con este resultado se pueden abordar los das problemas más frecuentes en 


el cálculo de probabilidades: 
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e  Constatar la hipótesis sobre el valor de la media en una población 
normal. 
e Dar un margen de confianza a la suposición de que dos muestras 


determinadas procedan o no de la misma población. 


2.97. Contrastar hipótesis sobre el valor de la media en una población 
normal. 


e Se conoce la desviación típica de la población o. 


e Se plantea la hipótesis d que sea „u la media de la población. 


Entonces se toma la distribución de las medias x de varias 
f — O 
muestras, cuyos valores serian: x= y ES 
Jn 
Conocemos que le 95% de los valores ocupará un área bajo la 
. . O 
curva situada en un intervalo + 2s = +2 
Jn 
Entonces, existe la probabilidad de obtener una muestra con media 
O O , 
mayor que: 4¿+2-= o menor que u-—2-—= será un 5% de 
Jn Jn 
error. De igual modo sabemos que para obtener un intervalo de 
. O O . 
confianza de un 99%, u+3-=; u-—3-= , con un por ciento de 
Jn Jn 


error del 1% 
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2.9.8. Dar un margen de confianza a la suposición de que dos muestras 
determinadas procedan o no de la misma población. 


Sea la distribución normal de la población ( u,o ). 


La distribución de la diferencia de media será normal de x=0 y 


5 = 0, — 


desviación , Sİ las dos muestra tienen igual extensión o 





, en caso contrario. 


Entonces el intervalo de confianza para un 95% de probabilidad 





con un riesgo de error igual al 5% será: 


Con un 99% de confiabilidad y error de un 1% será: 





Ejemplo: 


Sean dos muestras dadas por: 





Muestra A Muestra B 

n=60 n=90 

X, =34 X, = 26 

Probar que proceden de una misma población con desviación típica 
conocida 7 = 10 


113 


Respuesta: 


Si eso es cierto, la distribución de las diferencias de medias sería 





normal, de media cero y desviación 
Para un coeficiente de riesgo del 1% margen de confianza 99% el 


intervalo será: 


1 l 
50 + ap = 3040.017 +0,01 





= 30.70.027 = 300.17) = 5.1 


Es decir, la diferencia de las medias debe estar entre +5,1 y -5,1. 


Calculamos 34-26=8 Se rechaza la hipótesis de que esas muestras 
provienen de una misma población. 
Sea x=13, u= 10, o=2 


= xou 15-10 A 
Luego, j G 2 
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Los dos tipos de problemas que resuelven las técnicas estadísticas 
son: estimación y contraste de hipótesis. En ambos casos se 
trata de generalizar la información obtenida en una muestra a una 
población. Estas técnicas exigen que la muestra sea aleatoria. En 
la práctica rara vez se dispone de muestras aleatorias, por la tanto 


la situación habitual es la que se esquematiza en la figura 
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Pablación muestreo 





Población diana 


Entre la muestra con la que se trabaja y la población de interés, o población 
diana, aparece la denominada población de muestreo: población (la mayor 
parte de las veces no definida con precisión) de la cual nuestra muestra es 
una muestra aleatoria. En consecuencia la generalización está amenazada 
por dos posibles tipos de errores: error aleatorio que es el que las técnicas 
estadísticas permiten cuantificar y críticamente dependiente del tamaño 
muestral, pero también de la variabilidad de la variable a estudiar y el error 
sistemático que tiene que ver con la diferencia entre la población de 
muestreo y la población diana y que sólo puede ser controlado por el diseño 


del estudio. 


2.9.9. Tamaño muestral. 


El tamaño muestral juega el mismo papel en estadística que el aumento de la 
lente en microscopía: si no se ve una bacteria al microscopio, puede ocurrir 


que la preparación no la contenga - el aumento de la lente sea insuficiente. 
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Para decidir el aumento adecuado hay que tener una idea del tamaño del 
objeto. 


Del mismo modo, para decidir el tamaño muestral: 


i) en un problema de estimación hay que tener una idea de la magnitud a 
estimar y del error aceptable. 
ii) en un contraste de hipótesis hay que saber el tamaño del efecto que se 


quiere ver. 


2.9.10. Estimación de parámetros. 


En general, de las variables experimentales u observacionales no conocemos 
la fod. Podemos conocer la familia (normal, binomial,...) pero no los 
parámetros. Para calcularlos necesitaríamos tener todos los posibles valores 


de la variable, lo que no suele ser posible. 


La inferencia estadística trata de cómo obtener información (inferir) sobre los 


parámetros a partir de subconjuntos de valores (muestras) de la variable. 


Estadístico: variable aleatoria que sólo depende de la muestra aleatoria 


elegida para calcularla. 


Estimación: Proceso por el que se trata de averiguar un parámetro de la 
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población representado, en general, por © a partir del valor de un estadístico 


llamado estimador y representado por j 


El problema se resuelve en base al conocimiento de la "distribución muestral" 


del estadístico que se use. 


¿Qué es esto? Concretemos, por ejemplo, en la media (u.). Si para cada 


muestra posible calculamos la media muestral (+) obtenemos un valor 


distinto (4) es un estadístico: es una variable aleatoria y sólo depende de la 


muestra, habrá por tanto una fpd para X, llamada distribución muestral de 
medias. La desviación típica de esta distribución se denomina error típico de 
la media. Evidentemente, habrá una distribución muestral para cada 
estadístico, no sólo para la media, y en consecuencia un error típico para 


cada estadístico. 


Si la distribución muestral de un estadístico estuviera relacionada con algún 


parámetro de interés, ese estadistico podría ser un estimador del parámetro. 


2.9.11. Distribución muestral de medias. 


Si tenemos una muestra aleatoria de una población N(u., © ), se sabe 
(Teorema del límite central) que la fdp de la media muestral es también 
normal con media u y varianza o*/n. Esto es exacto para poblaciones 
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normales y aproximado (buena aproximación con n>30) para poblaciones 


O End A : 
cualesquiera. Es decir — es el error típico, o error estándar de la media. 


vn 


¿Cómo usamos esto en nuestro problema de estimación? 
1° problema: No hay tablas para cualquier normal, sólo para la normal u=0 y 


o=1 (la llamada z); pero haciendo la transformación (llamada tipificación) 


xX=M _ e 
z==— = una normal de media u y desviación o se transforma en una Z. 


Llamando z„ al valor de 
una variable normal 
tipificada que deja a su 
derecha un área bajo la 
curva de œ, es decir, 


que la probabilidad que 





la variable sea mayor 
que ese valor es oc 
(estos son los valores 
que ofrece la tabla de la 


normal) 
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podremos construir 


intervalos de la forma 


Y = 
Elan E Za 
F 
a 


para los que la 








a2 a2 


probabilidad es 1 - 1. 
Zian Z aj 


Teniendo en cuenta la simetría de la normal y manipulando algebraicamente 


F z CF 
Aza SES AR zan 
yn Jn 
O 
Se puede escribir: x+ z, , O haciendo énfasis en que —= es el error 
ri Jn 
estándar de la media, + F?%anéLL4) 


Recuérdese que la probabilidad de que u esté en este intervalo es 1 - oo. A 
un intervalo de este tipo se le denomina intervalo de confianza con un nivel 
de confianza del 100(1 - «0)%, o nivel de significación de 100xc%. El nivel de 


confianza habitual es el 95%, en cuyo caso v00=0,05 y Za/2=1,96. Al valor 


X se le denomina estimación puntual y se dice que +€ es un estimador de y 
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Ejemplo: Si de una población normal con varianza 4 se extrae una muestra 


aleatoria de tamaño 20 en la que se calcula A=3, se puede decir que [ 
tiene una probabilidad de 0,95 de estar comprendida en el intervalo 


5,3+1,96-= =(4,42 6,18) 


¿20 


que sería el intervalo de confianza al 95% para [ 

En general esto es poco útil, en los casos en que no se conoce | tampoco 
suele conocerse L*; en el caso más realista de [* desconocida los intervalos 
de confianza se construyen con la t de Student (otra fdp continua para la que 
hay tablas) en lugar de la z. 


e E 


ET. Ma 


: ; , D 
o, haciendo énfasis en que 


jia 


es el error estándar estimado de la media, 
Kirpi (A) 
Esta manera de construir los intervalos de confianza sólo es válido si la 


variable es normal. Cuando n es grande (>30) se puede sustituir t por z sin 


mucho error. 


2.9.12. Estimación de proporciones. 
Sea X una variable binomial de parámetros n y p (una variable binomial es el 


número de éxitos en n ensayos; en cada ensayo la probabilidad de éxito (p) 
es la misma, por ejemplo: número de diabéticos en 2000 personas). 
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Si n es grande y p no está próximo a 0 ó 1 (np >5) X es aproximadamente 
normal con media np y varianza npq 
P a 

11 


(siendo q = 1 - p) y se puede usar el estadístico (proporción muestral), que es 


pq 


también aproximadamente normal, con error típico dado por n 


en consecuencia, un IC para p al 100(1 - «c)% será 


E Pg 
P Ezari m 
z 


o Ötz nE) 

es decir, la misma estructura que antes: 

Obsérvese que para construirlo, jse necesita conocer p!. Si n es grande (>30) 
se pueden substituir p y q por sus estimadores sin mucho error, en cualquier 
caso como pq < 0,25 si se substituye pq por 0,25 se obtiene un intervalo más 
conservador (más grande). 

Ejemplo: En una muestra de 100 pacientes sometidos a un cierto tratamiento 
se obtienen 80 curaciones. Calcular el intervalo de confianza al 95% de la 
eficacia del tratamiento. 

P= 0,80 g=0,20 z= 100 Zos =1,96 


IC 095%: 0,80+1,96 o = 0,80 +0, 0784 
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¿Qué significa este intervalo? La verdadera proporción de curaciones está 
comprendida entre, aproximadamente, 72% y 88% con un 95% de 
probabilidad. 


¿Es suficientemente preciso? Habrá que juzgarlo con criterios clínicos. 


2.9.13. Contrastes de hipótesis. 


Una hipótesis estadística es una asunción relativa a una o varias 
poblaciones, que puede ser cierta o no. Las hipótesis estadísticas se pueden 
contrastar con la información extraída de las muestras y tanto si se aceptan 


como si se rechazan se puede cometer un error. 


La hipótesis formulada con intención de rechazarla se llama hipótesis nula y 
se representa por Ho. Rechazar Ho implica aceptar una hipótesis alternativa 
(H1). 


La situación se puede esquematizar: 


Ho cierta Ho falsa 
Hı cierta 
Ho rechazada Error tipo | (a) Decisión correcta (*) 
Ho no rechazada Decisión correcta Error tipo II (B ) 


(*) Decisión correcta que se busca 
oc= p(rechazar HoļHo cierta). 
g = p(aceptar HojHo falsa). 
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Potencia =1- œ= p(rechazar Ho]Ho falsa) 


Detalles a tener en cuenta 


1. 
2. 


a y p están inversamente relacionadas. 


Sólo pueden disminuirse las dos, aumentando n. 


2.9.14. Los pasos necesarios para realizar un contraste relativo a un 
parámetro son: 


¡A 


Establecer la hipótesis nula en términos de igualdad 
Ho :0=0, 
Establecer la hipótesis alternativa, que puede hacerse de tres maneras, 


dependiendo del interés del investigador 

A :0% 8 8 > Gy O < Bj 

en el primer caso se habla de contraste bilateral o de dos colas, y en los 
otros dos de lateral (derecho en el 2° caso, o izquierdo en el 3%) o una 
cola. 

Elegir un nivel de significación: nivel crítico para œ. 

Elegir un estadístico de contraste: estadistico cuya distribución muestral 
se conozca en Ho y que esté relacionado con [ y establecer, en base a 
dicha distribución, la región crítica: región en la que el estadístico tiene 
una probabilidad menor que [ si Ho fuera cierta y, en consecuencia, si el 


estadístico cayera en la misma, se rechazaría Ho. 


Obsérvese que, de esta manera, se está más seguro cuando se rechaza una 


hipótesis que cuando no. Por eso se fija como Ho lo que se quiere rechazar. 
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Cuando no se rechaza, no se ha demostrado nada, simplemente no se ha 
podido rechazar. Por otro lado, la decisión se toma en base a la distribución 
muestral en Ho, por eso es necesario que tenga la igualdad. 

9. Calcular el estadístico para una muestra aleatoria y compararlo con la 
región crítica, o equivalentemente, calcular el "valor p" del estadístico 
(probabilidad de obtener ese valor, u otro más alejado de la Ho, si Ho fuera 
cierta) y compararlo con œ. 

Ejemplo: 

Estamos estudiando el efecto del estrés sobre la presión arterial. Nuestra 
hipótesis es que la presión sistólica media en varones jóvenes estresados es 
mayor que 18 cm de Hg. Estudiamos una muestra de 36 sujetos y 


encontramos 
=lós 5=36 


1. Se trata de un contraste sobre medias. La hipótesis nula (lo que queremos 


rechazar) es: 
Hpy:4=18 

2. La hipótesis alternativa 
A :p>1s 


es un contraste lateral derecho. 
3. Fijamos "a priori" el nivel de significación en 0,05 (el habitual en Biología). 


4. El estadístico para el contraste es 
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y la región crítica T>f._ . 


Si el contraste hubiera sido lateral izquierdo, la región crítica sería T< t__ 


y si hubiera sido bilateral TSt a O Pt, 
Ea a 
En este ejemplo t(35)0,05=1,69. 

5, Calculamos el valor de t en la muestra 


1,5-15 
"i 
4436 
no está en la región crítica (no es mayor que 1,69), por tanto, no rechazamos 


Ho. 


Otra manera equivalente de hacer lo mismo (lo que hacen los paquetes 


T = 0,833 


estadísticos) es buscar en las tablas el "valor p" que corresponde a T=0,833, 
que para 35 g.l. es aproximadamente 0,20. Es decir, si Ho fuera cierta, la 
probabilidad de encontrar un valor de T como el que hemos encontrado o 
mayor (¿por qué mayor? Porque la H1 es que Mes mayor, lo que produciría 
una media muestral mayor y por tanto mayor valor de t) es 0,20, dicho de otra 
manera, la probabilidad de equivocarnos si rechazamos Ho es 0,20, como la 


frontera se establece en 0,05 no la rechazamos. 
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Este valor crítico de 0,05 es arbitrario, pero es la convención habitual. ¿Cuán 
razonable es? 

Problema al respecto: en la hipótesis de que un mazo de cartas esté bien 
barajado, la probabilidad de que al sacar dos cartas sean, p.e.:1 el as de oros 
y 2 el rey de bastos es 1/40 x 1/39=0,000833. 

Si hacemos la experiencia y obtenemos ese resultado ¿rechazaríamos la 
hipótesis de que el mazo está bien barajado? ¿Cuánto se parece esto a la 
lógica del contraste de hipótesis? 

Volvamos al problema del estrés. Como no se rechaza Ho, se puede cometer 
un error tipo ll. ¿Cuál es? De hecho, sería la información relevante a 
comunicar en este estudio (la probabilidad del error que se pude cometer en 
él). Habitualmente, sin embargo, no se da porque los paquetes estadísticos 
no la calculan. 

Para calcularla se debe concretar H1, p.e. u = 20 (el criterio para este valor 


no es estadístico) 





SA A 


I =p(aceptar Ho|H: cierta) 
Supongamos que el tamaño muestral sea suficientemente grande para poder 


aproximar ta Z. 
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¿Cuándo se acepta Ho? si z <1,69 


alë ma e 
L£Lb6* = ¿ele LOL => 421901 


36/4136 — 


es decir, se acepta Ho si + 1,01 


4 13,01 g 1 = 20 (zona verde del 


¿Qué probabilidad hay de encontrar 
gráfico)? En esta hipótesis lo que se distribuye como una z es 
X—20 19,01-20 


3516 T Tzee 


=165 > £=0,05 


2.9.15. Cálculo del tamaño muestral para contrastes sobre medias. 
Sea el contraste (bilateral). 


Ho: u= uo 

H1: u> uo 

Para calcular el tamaño muestral debemos, además de fijar a y B, concretar 
Hı 


Concretando H1: u = po + ô. 


Si n suficientemente grande para poder usar la normal, es decir 
Zu 


5/ala 


NO.) 


A 
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2.9.16. Conceptos principales sobre tema, problema e hipótesis. 


Tema: Es la denuncia del problema a través de un enunciado corto que 


expresa extensión, alcance y profundidad. 


Problema: Es un enunciado mucho más amplio que el tema, describe con 
precisión el fenómeno siendo real y observable. En resumen piense que el 


tema es el titular para una noticia, o el título para un poema. 


Hipótesis: La palabra hipótesis, es un término que se deriva de las raíces 
Hipo = suposición y Thesis = cosa, de manera que ateniéndose a su 


acepción etimológica, hipótesis significa suposición de una cosa. 


La hipótesis, es una suposición, una conjetura, una proposición de las 
posibles causas de un fenómeno o problema observado y cuyo valor de 


verdad no es conocido sino después de realizada la investigación respectiva, 


Toda hipótesis para considerársela como tal debe reunir las siguientes 


condiciones: 


No debe sostener contradicciones científicas. 
Debe ser suficiente clara y explícita en su expresión semántica. 


Debe ser razonable y consistente. 
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Por su aceptación o rechazo debe ser enunciada en términos de verdad o 
falsedad. 


Veamos algunos ejemplos de planteamientos de hipótesis: 


En sentido aseverativo, afirmativo, positivo: (relacionan lo que sucede 
entre los elementos): 

El rendimiento instructivo de los estudiantes de los colegios diurnos de la 
ciudad de Esmeraldas, es significativamente más alto que el de los colegios 


nocturnos. 


En sentido interrogativo (cuando se busca averiguar la causa de un 


problema): 


¿influye en el rendimiento de los niños de las escuelas de la ciudad de 


Esmerladas, la baja preparación de los maestros? 


En sentido condicional (cuando se incluye una relación causa - efecto): 


El mayor rendimiento instructivo de los niños de la ciudad de Esmeraldas, 
con respecto a los niños de las zonas rurales, se produce por el compromiso 
a la actividad reproductiva que son sometidos en el campo de los segundos 


por sus padres. 
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En sentido negativo (se la denota con Ho y plantea la no existencia 
significativa de ningún tipo de diferencia entre fenómenos de estudio, y en 
caso de existir alguna diferencia, se interpretará como que ésta se debe a 
errores de muestreo o bien que es tan pequeña la diferencia que no amerita 


tomársela en cuenta): 





Hen =x=>x-x=U 


En sentido alternativo o de investigación (se representa con H, y 


sostiene todo lo contrario de la hipótesis nula, es decir propone que sí hay 
diferencia estadísticamente significativa entre los fenómenos que se 


estudian). 


La proporción de bachilleres ingresantes al primer año de Fima de la 
universidad de Esmeraldas orientados en su carrera que continúan en ella, 
no es igual a la proporción de bachilleres ingresantes no orientados en su 


carrera que desertan sus estudios. 








H-a to >n- 
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Nivel de significación 


Llamado también nivel de confianza, se acostumbra representarlo con letra 
griega alfa a e indica el porcentaje de probabilidad de error que el equipo de 


investigación está dispuesto a aceptar ante una determina decisión. 


Se puede tomar cualquier tipo de significación, pero a fuerza de costumbre 


7 y — > , 0 y — r =i 
se ha hecho más frecuente Y = 0.052 Mo y æ = 0.05 > Mo 


= 0,0 


Ln 


Si se toma * significará que cualquiera sea la decisión que se tome. 
se lo hará con la posibilidad de error de 5%, lo que también significa que se 


tiene un 95% de probabilidad de haber tomado una decisión correcta. 


Pruebas bidireccionales: 


Es aquella prueba en la que no interesa establecer cuál de los fenómenos 
estudiados es mayor o menor que el otro, lo único que se precisa es 


determinar si existe o no diferencia entre ellos. 


Prueba de dos colas ó a dos lados. Son apropiados en el caso de que no se 
considere el valor de un parámetro demasiado grande ó demasiado pequeño 


para un fin determinado. 
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Pruebas unidireccionales: 


Es aquella prueba en la que interesa establecer si la diferencia de un grupo 


es mayor que la de otro. 


Existen dos tipos: 


a. Prueba de cola inferior izquierda. Se emplea cuando el valor de un 
parámetro no es lo bastante pequeño para algún objetivo específico. 

b. Prueba de cola superior o derecha. Se usa cuando se duda de que el 
valor del parámetro sea suficientemente grande o mejor dicho cuando 
creemos que va a tomar valores pequeños para algún fin 


predeterminado. 


A fin de comprender los conceptos teóricos, vamos a utilizar un ejemplo 
basado en el análisis que se hace en una fábrica de llantas. 

La fábrica de llantas tiene dos turnos de operarios, turno de día y turno de 
tarde. Se selecciona una muestra aleatoria de 100 llantas producidas por 
cada turno para ayudar al gerente a sacar conclusiones de cada una de las 


siguientes preguntas: 


1. ¿Es la duración promedio de las llantas producidas en el turno de día igual 
a 25.000 Km.? (prom.dia = 25.000 km). 
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2. ¿Es la duración promedio de las llantas producidas en el turno tarde menor 
de 25.000 Km.?. 


3. ¿Se revienta mas de un 8% de las llantas producidas por el turno de día 
antes de los 10.000 km?(prom.10.000 km 8% se revientan). 


Para poder contestar cada pregunta se debe tomar una decisión basada en 
la información de la muestra. Se abordará primero la pregunta 1. El gerente 
puede sacar dos conclusiones: 

a) La duración promedio de las llantas es 25.000 Km. 

b) La duración promedio de las llantas no es 25.000 Km.; es menor de ese 
promedio o mayor. Si se llega a esta última conclusión se tomara acción 
correctiva para determinar porque produce llantas por abajo o por encima de 


los estándares. 


Desde el punto de vista de pruebas de hipótesis estadísticas, estas dos 


conclusiones se representarian como sigue: 


hipótesis nula (Ho): = 25.000 Km. 
hipótesis alternativa (Hí): = 25.000 Km. 


Se podría empezar a suponer que la duración promedio de las llantas es de 
25.000 Km. Si se toma una muestra y la media de la muestra esta "cerca de" 
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25.000 Km., es razonable llegar a la conclusión de que la media verdadera es 
en realidad 25.000 Km. Si la media de la muestra fuera “diferente de” 25.000 
Km., es razonable pensar que la media verdadera no es 25.000 Km. En vez 
de decir de forma arbitraria "cerca de" o "diferente a" 25.000 Km., la prueba 


de hipótesis estadística cuantifica el proceso de toma de decisiones. 


La decisión de rechazar la hipótesis nula y de aceptar la hipótesis alternativa, 
se basa en la información contenida en una muestra de n mediciones, 
tomadas de una población. Los valores muéstrales se utilizan para calcular 
un solo número que corresponde a un punto de una recta. Tal número sirve 
para tomar decisiones y se denomina prueba estadística. Esta mide el 
acercamiento del valor de la muestra (como un promedio) a la hipótesis nula. 
Su distribución puede ser conocida (Normal, t, etc.) o bien se desarrolla una 
distribución para la prueba estadística particular. 

Gráfico de las regiones, valor hipotético y valores críticos. 

para prueba bidireccional: nivel de significación a = 0,05 =5% 


= 1.26 valores fijos 


punto crítico ~ 
1- a= 95% 


zona de rechazo: 1,96% 
ya?” 









zona de 


-3 -2 -1 0 +1 +2 +3 


para prueba bidireccional: nivel de significación Y = 0.01 =49 
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— +7 g 
=12.58 valor constante 


punto crítico ~ 
1- a= 99% 


zona de rechazo: 0,5% 
e[n 









zona de 


-3 -2 -1 0 +1 +2 +3 


para prueba unidireccional: nivel de significación Y = 0.03 =59, 


punto crítico = 7 +1,64 





{N zona de rechazo 5% 


para prueba unidireccional: nivel de significación Y = 0.01 =49 


= 31,33 


-3  -233-1 0 


Se divide todo el conjunto de valores que pueda tomar una prueba 


punto crítico ~ 





zona de rechazo 1 


estadística en dos regiones: una región de rechazo y una región de no 
rechazo (o también de aceptación). Si la prueba estadística cae en ésta 
última, no se puede rechazar la hipótesis nula y el gerente llegaría a la 
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conclusión de que el proceso funciona correctamente. En caso contrario, se 
rechazaría la hipótesis que uno supuso, y el gerente llegaría a la conclusión 
de que la media verdadera no era de 25.000 Km. El límite que divide ambas 
regiones se denomina valor crítico, necesario al tomar la decisión con 
respecto a la hipótesis nula. Ahora bien, este valor crítico depende del 
tamaño de la región de rechazo. Como se verá en el tema siguiente la 
decisión respecto al tamaño de la región de rechazo, acarrea los riesgos de 


tomar diferentes tipos de decisiones incorrectas. 


2.9.17. Errores tipo l y ll. 


Al utilizar una muestra para hacer inferencia en cuanto a la población, el 
tomador de decisiones corre el riesgo de que llegue a una conclusión 


incorrecta. 


Existen dos tipos de errores que pueden ocurrir en el procedimiento de 


pruebas de hipótesis: 
a) Error de tipo |, que es la probabilidad de rechazar la hipótesis nula Ho 


cuando, en realidad, es verdadera. A este error también se lo denomina “nivel 


de significación”. 
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En el ejemplo de las llantas, este error ocurriría si se llegase a la conclusión 
de que la duración promedio no era de 25.000 Km. cuando en realidad sí era 


de esa duración. 


b) Error de tipo ll, que es la probabilidad de aceptar la hipótesis nula Ho 


cuando es falsa y debería haber sido rechazada. 


Nuevamente en el ejemplo, esto ocurriría si se hubiera llegado a la 


conclusión de que el proceso funciona correctamente (produce llantas con -* 


= 25.000) cuando en la realidad no es ese el promedio. 


2.9.18. Pasos de las pruebas de hipótesis. 


1. Expresar la hipótesis nula HO. 
Expresar la hipótesis alternativa H1. 
Especificar el nivel de especificación, según la importancia de y. 


Determinar el tamaño de la muestran, n. 


SA e 10 


Establecer los valores críticos que dividen las regiones de rechazo y de 
no rechazo. 

6. Determinar la prueba estadística, es decir la técnica que se va a utilizar 
para determinar la región en que cayó el estadístico muestral y se 


compara con el parámetro hipotético. 
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10. 


Coleccionar los datos y calcular el valor de la muestra de la prueba 
estadística apropiada. 

Determinar si la prueba estadística ha caído en la región de rechazo o 
en la región de no rechazo. El valor de la prueba estadistica se compara 
con el valor crítico. 

Determinar la decisión estadística, si H0 se acepta o no. 

Expresar la decisión estadística en términos del problema. Por ejemplo, 
en el problema de las llantas, si se rechazó la hipótesis nula significaría 
que el promedio de la población sería diferente de 25.000 Km., con 
cierto grado de riesgo en que esta conclusión es errónea. Entonces, el 
gerente debería tomar acción a fin de determinar porque el proceso no 


funciona correctamente. 


2.9.19. Método de contrastación de hipótesis: Diferencias entre 


proporciones para datos no correlacionados. 


Existen investigaciones en las cuales los datos recopilados están 


presentados en forma de proporciones o porcentajes. Para este tipo de 


dificultades, se ha diseñado una prueba denominada Diferencia entre 


Proporciones, prueba en la cual el llamado error típico de la diferencia entre 


proporciones (SDP) puede calcularse con la siguiente fórmula: 
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La estimación óptima del parámetro proporción general, se obtiene de la 


AF 
NN, +N, 





P 
siguiente expresión: 


Las puntuaciones Z que se calculan pueden interpretarse acudiendo a las 
tablas de distribución normal, siempre que p o q y N sean razonablemente 
grandes. Una regla práctica, es que el menor de p o q, multiplicado por N1 o 
N2 debe dar un producto mayor que 5. Cuando este producto está 
comprendido entre 5 y 10 debe aplicarse una corrección por falta de 
continuidad, multiplicando el valor absoluto del numerador p1-p2 por 
L N +N; 
2 NN. 





) 


Antes de calcular la puntuación tipificada Z, si se trata de muestras pequeñas 
y se aplica la t de Student, en lugar de la puntuación Z, el número de grados 


de libertad se obtiene de la forma siguiente: g.. = (N, —1)+(W,—1). 


La fórmula del Error Típico de la diferencia entre Proporciones SDP es 
manejable siempre y cuando la correlación r = 0, si entre los datos existe la 
estimación del error típico de la diferencia de proporciones viene dada por: 
SDP = spi ds SPa — 2(r (Sp, Jsp, ) 
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TAREA No.1 


Problema 1: De 30 estudiantes varones de la formación docente inicial 18 
alcanzan dominio en el proceso metodológico del desarrollo de una lección y 
de 50 estudiantes mujeres solo 30 alcanzan dominio en el proceso de 


desarrollo de una lección. 
Algoritmo: 


Tema: Estudio del nivel de dominio del proceso de la lección alcanzado en la 
práctica docente de los estudiantes de la formación docente inicial. 
Planteamiento de hipótesis: 

Hipótesis nula: 

Modelo lógico matemático: La proporción en el dominio de los hombres en 
la práctica docente no difiere de la proporción en el nivel de dominio logrado 
por las mujeres en el desarrollo del proceso de la lección. 


>g Hop = p > p-p=0 
Modelo estadístico: 941 7 42 24722 


Hipótesis alterna: 
Modelo lógico matemático: La proporción en el dominio de los hombres en 
la práctica docente difiere de la proporción en el nivel de dominio logrado por 


las mujeres en el desarrollo del proceso de la lección. 
pa dam tp > ppm xkU 
Modelo estadístico: Pi Z Pi Ph 


J Hipi Pr Hyp P 
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Nivel de significación: Y = 9.033 Bo 


Zona de rechazo: R(Ho): Zc > 1,96; Zc < -1,96 

Diseño Muestral: 

Delimitación de la población: El universo de la población está constituido 
por hombres y mujeres estudiantes del IPED que cursan el tercer año de 
formación docente inicial. 


Cálculo de la muestra: N= 80 


PON) 0.25(80) 20 
FI == E OA AS A E SÉ ooo o 
l (N — DE- 780.081 00493754025 
O AA U 0.25 i i 
20 T 
"= 029938 
67 
A T 5 e 
Cálculo de la constante muestral: N 80 


Cálculo de la fracción de la muestra para cada estrato: 
m, = 300.8375 = 25 m, = 500.8375) = 42 


Selección de los elementos de la muestra: Se seleccionan los elementos 


aleatoriamente por estratos. 


Matriz de datos: 


CO A LA 
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Cálculo de la proporción muestral: 
AFA 18+30 48 


Cálculo del complemento de la proporción general: 
q=1-p => q= 1-0,6 = 0,4 


Cálculo del error típico de la diferencia de proporciones: 





0.240.033 + 0.02) 





ADP = 0240.05 = 40.01272 = 011278 


Cálculo de las proporciones parciales: 








18 30 
=—=06 3z =—=06 

AT e MT” 
Tipificación: 

n+p, 06-06 0 
Et = A 4 = — = = Ñ 

. SDP 011278 011278 

Decisión: 


Se acepta la hipótesis nula al no existir diferencias significativas entre la 
proporción de los que adquieren un alto nivel en el desarrollo del plan de la 


lección y los que no lo logran. 
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Problema 2: En una encuesta se descubre que 60 entre 170 mujeres y 32 
entre 128 hombres, prefieren x programa de televisión, a otros dos: ¿influye 


el sexo en la preferencia por dicho programa? 
Algoritmo: 


Tema: Análisis de las preferencias entre hombres y mujeres de un 
determinado programa x de Tv. 

Planteamiento de hipótesis: 

Hipótesis nula: 

Modelo lógico matemático: Proporción de mujeres que prefieren x programa 
de tv no difiere de la proporción de hombres que prefieren el mismo 
programa. 

Modelo estadístico: 4921 * P: > Pı =P: =+ 0 

Hipótesis alterna: 

Modelo lógico matemático: Proporción de mujeres que prefieren x programa 
de tv difiere de la proporción de hombres que prefieren el mismo programa. 


Modelo estadístico: H 221 + Pı > Pı- Pa + 0 


Nivel de significación: 4 = 9-41 > 1% 


Zona de rechazo: R(Ho): Zc >+2,58; Zc < -2,58 
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Diseño muestral: (los elementos que a continuación solo se expresan hay 
que calcularlos, pero en este caso ya vienen establecidas las respectivas 
muestras): 

Delimitación de la población: 

Cálculo de la muestra: 

Cálculo de la constante muestral: 

Cálculo de la fracción de la muestra para cada estrato: 

Selección de los elementos para la muestra: 


Matriz de los datos: 


prefieren programa x de tv. a 60 


no prefieren programa x de tv. CS 110 


Cálculo de la proporción general: 
AR 32+60 92 





Cálculo del complemento de la proporción general: 
qa =1-p=8=1-0,531=069 


Cálculo del error típico de la diferencia de proporciones: 








1 
) 


1 
(0,310.62 t Tag 





02139(0,0137125) 
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¿DP = 40.002933 = 0,0542 


I. Cálculo de las proporciones parciales: 








60 a 32 a 
P = a 9333. Ban ne 
Tipificación; 
pa — p, 035-025 0.103 
Z=“ = =19 
: SDP 0.0542 0.0542  * 


K. Decisión: Se acepta la hipótesis nula y por consiguiente se establece que 
el sexo no incide en los niveles de observación del determinado programa x 


de tv. 


2.10. Método de contrastación de hipótesis: Diferencias entre medias 
para muestras de diferente tamaño y datos no correlacionados. 

En la mayoría de las investigaciones, las muestras que se obtienen no 

resultan ser de igual tamaño, antes por el contrario estas son de tamaño 

diferente, así por ejemplo: podemos tener un grupo de escolares de los 

colegios fiscales en un número de 350, en tanto que en los colegios 


particulares 220 estudiantes como muestras. 


Cuando las muestras con las cuales se vas ha realizar la investigación son 
de diferente tamaño (N1 y N2), básicamente lo que buscamos es tratar de 


dar el peso apropiado o específico a la influencia de cada muestra, para el 
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caso de la media aritmética, tal equilibrio se da automáticamente, ya que 
siempre estamos dividiendo la sumatoria de las puntuaciones x sobre el 
número total de casos, no así en el caso del error estándar de la diferencia 
que puede producir ciertos alejamientos de la normalidad estadística, para 
corregir tal alejamiento es necesario tener presente en el desarrollo de un 


proceso de contrastación de hipótesis, las siguientes recomendaciones: 


Se omite el cálculo del error típico de las medias (5x) 


tsd +), se lo realiza en 


El cálculo del error típico de la diferencia de medias 


base a la siguiente fórmula corregida: 





NS +N S 1 1 








Sa X = | N +N, -2 li N, + N. | 
donde: 
say * = error típico de diferencia de medias para muestras de diferente 
tamaño. 
y = 


desviación estándar de la primera muestra o primer grupo. 


dy = A: , 
- desviación estándar de la segunda muestra o segundo grupo. 


N1= número total de casos del primer grupo 


N2= número total de casos del segundo grupo 
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2.10.1. Método Diferencia de medias para datos correlacionados 


Es muy frecuente en un proceso de investigación encontrarse con series de 
datos que, o bien se encuentran claramente correlacionados entre sí, o bien 
se sospecha que de alguna manera puedan estar en mayor o menor medida 
relacionados; para estos casos no podemos aplicar estrictamente los 
procesos anteriores, los mismos que han sido diseñados exclusivamente 
para datos no correlacionados o muestras independientes, las variantes que 
van a producirse, serán de análisis en el presente documento. 

Como se recordará dos series de datos se dicen correlacionadas entre sí, 
cuando, por ejemplo: se trata de dos conjuntos de mediciones de las mismas 


personas con la misma escala, de mediciones tomadas de hermanos, etc. 


Para los casos antes mencionados, el procedimiento a seguirse es en 


esencia el mismo, debe recordarse las siguientes precauciones: 


Se calculará cuantitativamente y con el estadígrafo apropiado el grado de 


correlación entre las variables en estudio. 


El error típico de la diferencia entre medias se lo determinará aplicando la 
siguiente expresión, en la cual como Ud. comprenderá, si no existe 
correlación entre los grupos r = 0 y la expresión queda reducida a la fórmula 
e N, EN, 
inicial cuando ~ + £ 
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Sdx=. (ox Y —(0x,) — 2r (ox Xox) = 
en donde: 


Sax = error típico de la diferencia entre medias para datos correlacionados. 


4 = error típico de la media del primer grupo 


2 = error típico de la media del segundo grupo 


r = valor numérico del coeficiente de correlación 


TAREA No.2 


Problema 1: De las poblaciones de los colegios A y B. En el A son 120 
estudiantes y en el B, 80. Se desea realizar un ensayo de contrastación de 
hipótesis y verificar si existe o no diferencias significativas en el rendimiento 
de matemática de entre las muestras seleccionadas a un nivel de 


significación del 0,01. 


Tema: Análisis comparativo del rendimiento de matemático de los 
estudiantes de los colegios A y B, cuyas poblaciones son diferentes en 


número. 
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Planteamiento de hipótesis: 


Hipótesis nula Ho: 

Modelo lógico matemático: 

El promedio de los estudiantes de los colegios A y B no difieren su 
rendimiento de matemáticas 

Modelo estadístico: 


Ho:X,=X, A -X¿=0 


Hipótesis alterna, alternativa o de investigación H1: 

Modelo lógico matemático: 

El promedio del rendimiento de matemática de los estudiantes del colegio A, 
difiere del promedio del rendimiento matemático de los estudiantes del 
colegio B. 


Modelo estadistico: 


Nivel de significación: 
a = 0.01 => 1% 
Zona de rechazo para Ho: 


Z> 





2.58] 


R(Ho): 
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Diseño muestral: 
N, =12:............N¿ = 80 


Cálculo de la muestra para cada estrato: 


MPO) 
O alo ci + PỌ 
E? 
120(0.25) 30 30 
Py = “Y TIN O S Arandas. C ASE OT 
aO PODA), 6 
— z OL 4 — *025 Ta +0.25 
30 30 
n = — =M 
0,4284 + 0,25 0,6784 
80(0.25) 20 20 
790.12) 70.014) “IBE 
4075 — 2025 -5»-—————+025 
E + 0.25 4 +U, F +0. 
20 20 





"27 02844+0225 05344 


Cálculo de la constante muestral; 


ri 
C, = — (100) = 
a = 5100) 


C, = Z2 (100) = 36.666 


120 


37 
C. = — (100 = 46.15 
E a d 2 
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Obtención de la muestra para cada estrato. 











Cn, 
m; a ali == 
100 
a Cin, _ 36.6644) _ 1613,04 -16 
l 100 100 100 
Cong 46.2%37) 171104 ._ 
HG = e =]]/ 
= 100 100 100 
colegios fracción de muestra para cada estrato 
Colegio A 16 
Colegio B 17 


Selección de los elementos de la muestra para estrato (presentación, 


ordenación y tabulación de datos); 


nómina est. colegA  |calif nómina est. coleg B | calif 





A1 12 
A2 6 B2 16 
A3 10 B3 18 
A4 15 B4 20 
A5 16 B5 20 
A6 20 B6 18 
A7 14 B7 16 
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A8 18 B8 17 


A9 10 B9 18 
A10 11 B10 14 
A11 12 B11 19 
A12 14 B12 18 
A13 16 B13 20 
A14 15 B14 20 
A15 10 B15 16 
A16 18 B16 18 

B17 19 





Cálculo de las medidas de tendencia central; 


X, =1331 X, =1759 


A 


Cálculo de las medidas de dispersión: 
1.3 


O, = 1,387 Tg = 1,0 


Cálculo del error típico de la diferencia entre medias ed pe 





a EAR ENS | ] , ] 
PAUA aA N, +N -2 |N, i 


- 
=- "j 
æ 


): 
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12001387) +80 1 1 


120+80-2 ¿1120 80 








230,8523 + 80 
198 


K0.00833+ 0.0125 = 





Sdifx=..113699(0.02083) =./0.0327 = 0.181 





Tipificación: 
n X-X; _1831-17,59 -AM oag 
Sdif x 0181 0,181 
Decisión - conclusión: 
Como el valor absoluto del puntaje zeta calculado Ze > |-23.64| , es mayor 
Z =/2,58 


que el valor absoluto del puntaje Zeta tabulado | , rechazamos la 
hipótesis nula y en consecuencia aceptamos la alterna, con una probabilidad 
de error del 1% y la prueba paramétrica diferencia entre medias para 
muestras de diferente tamaño y de datos no correlacionados; es decir existe 
diferencia estadísticamente significativa entre el rendimiento de matemática 


de los colegios A y B. 
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Problema 2: Dos grupos formados por hermanos y hermanas el de varones 
uno y el de mujeres otro. Se propone un test de inteligencia a cada grupo, 
tanto el instrumento de medición como el investigador son los mismos. En el 
cuadro que se entrega posteriormente se encuentran dos conjuntos de 
mediciones (X y Y), que corresponden respectivamente a las variables 
enunciadas anteriormente. Se solicita realizar un ensayo de contrastación de 
hipótesis y verificar si existe o no diferencia estadística significativa entre el 


Cl de los grupos en comparación. 


Algoritmo: 


Tema: Estudio comparativo entre el Cl de un grupo de hermanos y hermanas 


entre sí. 


Planteamiento de hipótesis: 


Hipótesis nula: Ho 


Modelo lógico matemático: 


El coeficiente de inteligencia entre un grupo de varones no difiere del CI de 


entre un grupo de mujeres, hermanos entre sí. 
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Modelo estadístico: 


Ho: Uvyv=Um=Uv-Um=0 
Hipótesis alterna, alternativa o de investigación: H, 


Modelo lógico matemático: 


El coeficiente de inteligencia entre un grupo de varones, no es igual al 


coeficiente de inteligencia de un grupo de mujeres, hermanos entre sí: 


Modelo estadístico 


H,: Uv+Um=> Uv-Xm2%0; 
H,: Uv<Um 


Nivel de significación 


a = 0,05 > 5% 


Zona de rechazo para Ho 


R(Ho): Zc > 





1,96| 
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Diseño muestral 


Delimitación de la población. (queda enunciado, toda vez que los datos ya 
han sido entregados). 

Cálculo del tamaño de la muestra 

Cálculo de la constante muestral 

Cálculo de la fracción de muestra para cada estrato 

Selección de los elementos de la muestra 


Presentación, tabulación y ordenación de datos. 


Calificaciones obtenidas en una prueba para determinar el cociente de 


inteligencia, por un grupo de varones y mujeres hermanos entre sí. 


30 28 
20 


29 





156 





157 


Cálculo de las medidas de 
tendencia central. 


Uv=214871  Um=212564 


Cálculo de las medidas de 
disposición. 





ÓUv = 6.4923 óUm = 6.3731 


Cálculo del error típico de 





las medidas. 
a 
N—1 
sy. 1 ôU 
Jn n—1 


El cálculo del coeficiente de correlación de Pearson, puede obtenerse 
utilizando una calculadora casio Px3600p en el modo 2, es decir en regresión 
lineal: LR, r = 0,94 
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Cálculo del error típico de la diferencia entre medias, para datos 


correlacionados 





= (110) +(1 -2(0,94)/0.10101) 
= 42.21- 2.068 =/0.142 = 0.38 


Tipificación: 


_Uv-Um  21.4871-21.2564 0.2307 a 


LG. = — 
Ó..DU 0.38 0.38 





Decisión - conclusión 


Como el valor absoluto del puntaje Zeta calculado (0.61), es menor que el 
valor absoluto del Z tabulado 1.96 aceptamos la hipótesis nula (o en su 
defecto no tomamos ninguna decisión), con una probabilidad del error del 5% 
y la prueba paramétrica diferencia entre medias para datos no 
correlacionados, es decir no existe diferencia estadísticamente significativa 
entre el coeficiente de inteligencia de varones y mujeres, hermanos 


respectivamente entre sí. 
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2.10.2. Método de contrastación de hipótesis mediante análisis de 
varianza simple. 


Los temas anteriores se han centrado en el estudio de contrastación de 
hipótesis, utilizando las pruebas de significación zeta para establecer relación 
entre dos grupos X y Y, A y B, etc. En la práctica es generalizada la 
intervención de más de dos grupos de estudio, así por ejemplo: un grupo 
por cada uno de cinco barrios de la ciudad de Esmeraldas. Si se pretendiera 
realizar contrastes tomando los cinco barrios en grupos de dos en dos, 
tendríamos que cumplir diez contrastes distintos, lo que supone, que si el 
número de grupos aumenta, aumentará el número de ensayos de 
contrastación a realizarse. El número de contrastes que se tendrá que 


realizar en estos casos puede precisarse, en base a la siguiente expresión: 


N(N-D)_ 15(15-D) 
2 


=105 contrastes 


Siendo N = número de grupos. 


En caso de tenerse 15 grupos de estudio, el número de contrate será 105, al 
realizar tales cálculos trae consigo el aumento de la probabilidad de cometer 
un error del tipo alfa, es decir el error, el error lleva a rechazar la hipótesis 


nula cuando ésta debe ser aceptada. 
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Para superar las limitaciones de este tipo, se ha diseñado una prueba 
estadística que mantenga el error alfa a un nivel constante, tal prueba se 


denomina análisis de varianza. 


La prueba paramétrica análisis de varianza, abreviadamente conocida por 
sus siglas: Anadeva, Adeva, etc., es una prueba que exige el cumplimiento 


de los siguientes requisitos: 


Se supone que los elementos de los distintitos subgrupos han sido elegidos 


por muestreo aleatorio y de poblaciones de distribución normal. 


La varianza de los subgrupos tiene que ser homogénea, es decir: 
Ho: Sé=8?*=5S? => 8? 
Las muestras que conforman los subgrupos han de ser independientes. 


La prueba es útil en la comparación de tres o más grupos. 


Para la aplicación de la prueba ANADEVA, será necesario revisar los 


siguientes conceptos: 


Suma de cuadrados dentro de los grupos: La suma de cuadrados dentro 
de los grupos nos da la suma de las desviaciones de cada puntaje crudo con 
su media muestral, elevadas al cuadrado. Se representará: 


SDdentro y será igual a : SDdentro = SCtotal - Scentre 


Suma de cuadrados entre los grupos: abreviadamente denotada por: 
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SCentre, representa la suma de las desviaciones de cada media muestral de 
la media total elevada al cuadrado. En fórmula se expresa como: 
2 2 
X Xtotal 
N Ntotal 
Suma total de cuadrados: se la representa por SCtotal y su fórmula es: 


O Xtotal) 


SCtotal = SY X “total — Era 
tota 


Media cuadrada o varianza entre los grupos: se obtiene con la fórmula: 


SCentre 


gl entre 


U Centre = 


Razón cociente F: compara variaciones entre los grupos, y las variaciones 
dentro de los grupos; por lo tanto la razón F, no es sino un indicador de la 
magnitud de la media cuadrada dentro de los grupos; expresada en fórmula 


como: 


B U Centre 
UCdentro 


Se recuerda que con ésta prueba se contrasta en un solo ensayo la 
significación entre: rendimientos, estaturas, edades, cocientes de inteligencia, 
categorías escalafonarias entre blancos, indígenas, negros y mestizos, entre 


diferentes grupos sociales, económicos y tendencias políticas, etc. 
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TAREA No.3 
Supongamos que se trata de comprobar de que el coeficiente intelectual Cl 


varía según el grupo social. 


Supongamos que a los señores maestrastes se los ha dividido en tres grupos 
sociales y a cada uno se le aplica un instrumento de medición para 


determinar su Cl. 


Problema 1: Las puntuaciones obtenidas en la mencionada prueba, se 
insertan a continuación. Utilice alfa = 0.05; cada grupo estará formado por 10 


alumnos aleatoriamente seleccionados. 


Algoritmo: 


Tema: 


Variaciones del Cl entre los grupos sociales: alto, medio y bajo de la 
maestría 2000 — 2005 


Planteamiento de hipótesis: 


Hipótesis nula: Ho 


Modelo lógico matemático: 


El CI entre los grupos sociales, alto, medio y bajo de la maestría, no difiere. 
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Modelo estadístico: 


Xa— Xm=0 

ne 7 e Xm -— Xb = 

Ho; Xa = Xm = Xb => si s j 
Xa— Xb =0 


Hipótesis alterna, alternativa o de investigación 
Modelo lógico - matemático 


EI CI entre los grupos sociales alto, medio y bajo de la maestría, difieren 


entre sí. 
Modelo estadístico 
Xa-Xmz0 
H: Xa+Xmx+Xb=> Xa-Xb%0 


Xm=Xb%0 
H.: Xa>Xm 
H, Xa<Xm 
H; Xa>Xb 
H.: Xa<Xb 
H; Xm> Xb 
H.: Xm< Xb 
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Nivel de significación 
a = 0.05 > 5% 
Grado de libertad entre los grupos 


g.l entre = k-1 
= 3-1 k= número total de grupos que intervienen 
=2 


Grado de libertad dentro de los grupos 


g.l dentro = N total — k 
= 30-3 N total = número total de elementos entre 
Todos los grupos 
= 27 


Grados de libertad tabulares 


gl numerador _ glentre 2 -0.074 


gl tabulares= - = = 
g.l denomidador g.l dentro 27 


Zona de rechazo 
R (H): Fc > /3,35/ 
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Diseño muestral 


Delimitación de la población: Para el presente caso de investigación, el 
referencial estará formado por todos los alumnos matriculados y que asisten 


normalmente a la clase de la maestría. 


Cálculo del tamaño de la muestra 


na = 10 
nm = 10 
nb =10 


Cálculo de la constante muestral 


Cálculo de la fracción de muestra para cada estrato 


Selección aleatoria de los elementos de la muestra 


Presentación de datos 


Puntaciones obtenidas en un test, destinado a medir el CI de un grupo de 10 


estudiantes de los grupos sociales; alto, medio y bajo de la maestría. 
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Grupo alto Grupo o 


Cálculo de los parámetros: > X y » X” 
Y X, =1150 $ X’ =133750 


Y X, =1020 Y Xx  =104900 
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Y X, =880 Y Xx”  =80000 
Cálculo de las medidas de tendencia central 


_ X 
X Aa So 8 





oon 10 
A X 
X, = 2%, B 
n, 10 





Cálculo de la suma total de cuadrados 


(> Xtotal) 


SCtotal = A X “total — A 
tota 


= 133750 +104900 + 80000 - T 


= 318650 — 310083,33 
= 8566,67 


(1150+1020 +8807 
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Cálculo de la sume de cuadrados entre los grupos 





SCentre= X Èx) _Q Xtotal)” 








N Ntotal 
2 2 2 
_ (1150) , (1020) , (880) _ 31008333 
10 10 10 


= 132250+104040+77440-310083,33 
= 3646,67 


Cálculo de la suma, de cuadrados dentro de los grupos 


SC dentro= SCtotal — SC entre 
= 8566,67 - 3646,67 
= 4920 


Cálculo de la media cuadrática entre los grupos 


UC entre= pS 


g.l entre 


_ 33646,67 
2 


= 1823,34 
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Cálculo de la media cuadrática dentro de los grupos 


SC dentro 


UC dentro = 
g.l dentro 


_ 4920 
27 


= 182,22 


Cálculo de la razón F 





ma UC entre 
UC dentro 


1823,3 


= = 10,01 
182,22 





Decisión 


En vista de que el valor absoluto de la razón F calculada (10,01) es mayor 
que el valor absoluto de la razón F tabulada (3,35) rechazamos la hipótesis 


nula con una probabilidad de error del 5% y la prueba paramétrica análisis de 


varianza. 
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Conclusión 


De la decisión tomada anteriormente, se puede concluir que sí existe 
diferencia estadísticamente significativa entre los cocientes de inteligencia de 
los grupos sociales: alto, medio y bajo pero como no es posible precisar por 
tratarse de 3 grupos entre cuales de ellos exactamente se produce la 
diferencia significativa, tenemos que dilucidar tal situación, utilizando la 
diferencia significativa honesta de Tukey; la misma que se obtiene de la 


aplicación de la siguiente expresión. 


Der IUC ean 


En donde: 

DSH = Diferencia significativa honesta de Tukey; que se busca 

UC dentro = Media cuadrática dentro de los grupos qœ = Valor tabular 
que se obtiene en función del número máximo de medias de los 
grupos, los grados de libertad dentro un nivel de significación 
cualquiera, (ver en la tabla al final) obtenidos en la aplicación del 


ejercicio. 


N = número de casos en cada grupo 
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Cálculo de la diferencia significativa honesta de Tukey 


Disg IUC dentro E 
N 1.+X 


q <|2. g.l dentro 


182.22 a 


10 
= 3,01 (4,27) = 14.81 


Elaboración de las tablas de diferencia entre medias ordenadas (de 


= g(0.05) 





menor a mayor) 





Interpretación - decisión 


Como la diferencia entre los grupos sociales alto y bajo (27), supera o es 


mayor al valor obtenido para la DSH de Tukey, concluiremos que entre los 
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grupos sociales alto y bajo, sí existe diferencia significativa, en lo que 
respecta a sus coeficientes de inteligencia. 

En vista de que el valor obtenido para la diferencia entre el grupo social 
medio y bajo (14), es menor o está por debajo del valor de la DSH de Tukey, 
concluiremos que entre los grupos sociales medio y bajo, no existe diferencia 
significativa entre sus Cl. 

Dado que la diferencia entre las medias de los grupos sociales alto y medio 
(13), es menor que el valor de la DSH; colegimos que entre los grupos 
sociales alto y medio, no existe diferencia significativa en lo que respecta a 


sus coeficientes de inteligencia. 


2.10.3. Método de contrastación de hipótesis mediante razón t de 
Student. 


Existen muchas investigaciones en las cuales debido a determinados 
factores, las muestras obtenidas son menores que 30, en cuyo caso se 
acostumbra, a denominarlas pequeñas muestras. Si se pretendiera, con 
estos grupos pequeños obtener conclusiones y decisiones en base a la 
comparación con la Curva Normal, que ha sido diseñada para grandes 
muestras, tales resoluciones o conclusiones, resultarían sobreestimadas y 


defectuosas. Para corregir estadísticamente, este alejamiento de la 
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normalidad William Gosset, en 1908 presenta un estadigrafo específico, con 
el seudónimo de “t” de student, prueba que puede ser utilizada en función de 
los grados de libertad; entendiéndose técnicamente como tales, al campo de 
variación de un conjunto de datos; así por ejemplo si condicionamos que la 
suma de 5 números, pero una vez determinados los cuatro, el quinto 


irremediablemente quedará dado por la sumatoria de los cuatro anteriores. 


Entre los grados de libertad, y su respectiva Interpretación existe una relación 
directa, vale decir a mayor tamaño de la muestra, más grados de libertad 
existen, y mientras más grados de libertad existan mayor aproximación a la 
curva normal, en otras palabras a infinitos grados de libertad, la razón “t” de 


student, se convierte en puntaje Z 


La expresión matemática que permite el cálculo de los grados de libertad, es 


la siguiente: 


gus Ay PM 2 v gl. = (n, —1) + (n, —1) 
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TAREA No.4 


Problema 1: Con los datos del cuadro adjunto y que corresponde a las 
donaciones en dólares de un grupo de personas, a quienes se las garantizó 
mantener su anonimato y otro grupo, a quienes en cambio se les garantizó la 
publicidad de su colaboración, con las mencionadas colaboraciones, realizar 
un ensayo de contrastación de hipótesis y verificación si el comportamiento 


caritativo de las personas difiere, cuando la donación es anónima, que 


cuando no lo es. (oc = 0.01). 


donantes anónimos donantes públicos 





Tema: Estudio comparativo del comportamiento de las colaboraciones 
económicas de dos grupos de personas, en el que el primero la donación la 


hace anónima y el segundo público. 
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Planteamiento de hipótesis: 


Hipótesis nula Ho: 

Modelo lógico matemático: el grado de comportamiento de las 
colaboraciones de las personas es igual, cuando las donaciones son 
anónimas o públicas. 


Modelo estadístico: X, = X, > X,-X,=0 


P 


Hipótesis alterna H, 


Modelo lógico matemático: el grado de comportamiento de las 
colaboraciones de las personas difiere cuando las donaciones son anónimas, 


que cuando son públicas. 


X,+X,> H,:X,-X,%0 
Modelo estadístico: H,:X,-X,>0 
H, ¡XX -X, <0 


Nivel de significación: oc = 0.01 > 1% 
Grados de libertad gl: g..=n +n,-2=7+7-2=12 
Zona de rechazo R(Ho): R(Ho): t >|3.055| 


Diseño muestral: 
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Delimitación de la población: 

Cálculo del tamaño de la muestra: n, =7 n, =71 
Cálculo de la constante muestral: 

Obtención de la fracción muestra para cada estrato: 
Selección de los elementos para cada muestra: 


Presentación de los datos: 


Colaboración económica de dos grupos de personas, el primer grupo 


donantes anónimos y el segundo donante públicos. 


Cálculo de medidas de tendencia central: 


X,=2857.14  X,=4600 





Cálculo del error típico de las medias: 


= o, 1801.7 


j = = 735.68 
n-1 2.449 
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ÉS O 
y - Z _31043 


= = 1267.58 
n=1 2.449 


Cálculo del error típico de las diferencias entre medias: 


Sdif = | SX? + SX? = (135.68) + (1267.58) = 


= 4 541225.0624 + 1606759.118 = v2147984.118 = 1465.6 
Tipificación: 


y XX, _2857.14-4600 _ -174286__, ¡2 
Sdif 1465.6 1465.6 


Decisión: En vista que el puntaje t calculado (valor absoluto) 1.189 es menor 
que el valor absoluto del puntaje t tabulado 3.055, aceptamos la hipótesis 
nula y rechazamos la hipótesis alterna, con una probabilidad de error del 1% 
y la prueba de significación razón t de Student, para muestras de igual 


tamaño. 


Conclusión: De la decisión tomada anteriormente, se puede colegir que no 
existe diferencia estadísticamente significativa entre personas que dan 


colaboraciones en forma anónima 
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UNIDAD 3 PRUEBAS NO PARAMÉTRICAS 


OBJETIVO ESPECÍFICO DE LA UNIDAD 3: 


Desarrollar la capacidad para interpretar los procesos de las pruebas no 
paramétricas resultados del análisis de los ejercicios propuestos y de la 
aplicación del GeoGebra. 


CONTENIDOS MÍNIMOS DE LA UNIDAD 3: 
3.1. Chi cuadrado de Pearson. 


TAREA No.5 DE LA UNIDAD 3. 
3.2. Prueba Chi cuadrado con la corrección de Yates por continuidad. 


3.3. Prueba de Chi cuadrado, tablas de contingencia. 


3.4. Pruebas unidireccionales o a una cola. 


LOGROS DE LA UNIDAD 3: 

Interpreta y comprende la pertinencia del uso del Chi cuadrado con la 
corrección de Yates por continuidad y pruebas unidireccionales a una 
sola cola. 


Aplica procesos con autonomía con el GeoGebra para calcular el Chi 
cuadrado mediante las tablas de contingencia y pruebas 
unidireccionales a una sola cola. 


Resuelve mediante la aplicación del GeoGebra pruebas unidireccionales 
a una sola cola. 
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TAREAS DE LA UNIDAD 3: 


1. Elabore un organizador gráfico del tema Chi cuadrado con la 
corrección de Yates por continuidad. 


2. Elabore un video del tema con una duración de 3 minutos. 


3.  Socializar de manera oral con argumentos teóricos Chi cuadrado 
con la corrección de Yates por continuidad. 


EVALUACIÓN DE LA UNIDAD 3: 


Construcción de organizador | a+b+c= 10 
gráfico: a+b= 8 
g. Redes semánticas. c= 6 
h. Relaciones cruzadas 
i. Derivación de 4to 
orden 
Análisis g. Secuencia lógica | atb+c= 10 
desde el organizador | a+b= 8 
gráfico. c=6 


h. Discurso claro y 
pertinente. 

i.  Concreción de 
ejemplos y 
aplicaciones 


Búsqueda de información g. Mucho at+b+c= 10 
científica actualizada h. Poco iA 8 
i. Nada 


Uso y aplicación de métodos g. Mucho TT, 
1 


Poco A 8 
Nada 


científicos y empíricos 
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3. PRUEBAS NO PARAMÉTRICAS 
16 horas 


3.1. Chi cuadrado de Pearson. 


Los investigadores han diseñado una serie de pruebas estadisticas, todas 
ellas altamente confiables para la contratación de hipótesis; aplicables en 


determinadas condiciones y limitaciones del proceso investigativo. 


La prueba paramétrica diferencia entre medias, utilizada para el contraste de 
hipótesis en circunstancias que se tenga las llamadas grandes muestras 
(mayores de 30). Prueba que investigadores como Jack Levin y otros la 
desglosan, para muestras de igual y diferente tamaño, así como para datos 


correlacionados y datos no correlacionados. 


Otra de las pruebas, la denominada diferencia entre proporciones a la cual 
también autores como Downie Heath la aplican para datos correlacionados, 


como para datos no correlacionados. 


Para el caso de las llamadas pequeñas muestras (menores de 30), no es 
posible aplicar las pruebas señaladas anteriormente, que como ya se dijo, 
han sido diseñadas para las llamadas grandes muestras, por lo que los 
valores y conclusiones que se obtengan, resultarían sobreestimados, para 
corregir esta sobrestimación estadística se aplica la razón denominada t de 


Student, diseñada por William Gosset, en el año de 1908. 
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Todas las pruebas enunciadas hasta el momento se acostumbra 
denominarlas paramétricas, pues son aplicables a a datos provenientes de 
distribuciones consideradas normales, a las cuales se supone que 
determinada caracteristica se halla normal y proporcionalmente distribuida 
en una población y además porque este tipo de distribuciones permite 
obtener parámetros como: la media aritmética, desviaciones, etc. En cambio, 
existen procesos de investigación en los cuales no pueden exponerse la 
normalidad de la característica en la población y los datos no se sujetan a 
una medida determinada; de igual forma las variables son cualitativas y 
consecuentemente ya no será posible obtener medidas de tendencia central, 
de variabilidad, individuales, etc, para estos casos existe una prueba especial 


denominada prueba Chi Cuadrado. 


La prueba de contrastación de hipótesis llamada Chi cuadrado, por el nombre 
en inglés de la letra X: Chi, también llamada Shi, aún cuando en castellano 
lo apropiado sería la denominación de Ji Cuadrado. Esta prueba es la más 


utilizada y más popular de la investigación social. 


Para proceder a la aplicación práctica de un contraste de hipótesis, 
delimitaremos en forma sucinta pero concreta, en qué circunstancias y 


condiciones debemos utilizar esta prueba. 


Cuando los datos discretos obtenidos son nominales, pudiendo ser 
frecuencias tanto absolutas como relativas o proporciones provenientes de 
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variables relativas o proporciones de variables cualitativas; no está por 
demás señalar que también puede aplicársela para datos continuos, 


debiendo previamente reducirselos a categorías. 


Para comprender si una distribución experimental difiere de alguna 
distribución previamente establecida (lanzamiento de dados, monedas etc, 
ejemplos ilustrativos, pero que no son aplicables a la educación, no obstante, 
puede aplicarse en química para verificar las leyes de Mendel en flores etc.). 

Con las limitaciones anteriores puede aplicársela para contrastar dos o más 


muestras independientes. 


En el campo educativo, permite descubrir, la relación de concordancia o 


discrepancia entre conductas implícitas y conductas manifiestas o explícitas. 


La expresión matemática que permite el cálculo del valor numérico de X? 


es. 


(Fo, — Fe, y A 


e? fe 


En donde: 


X * = Chi cuadrado de Pearson, cuyo valor se busca. 


y = letra mayúscula sigma “sumatoria de” 


Fo = frecuencias observadas realmente en un fenómeno investigado 
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Fe = frecuencia esperada o teórica, lo que nos sugiere que será el 
número de veces que el investigador espera obtener en fenómeno 


investigado 


TAREA No. 5 


Problema 1: Al realizar el lanzamiento de tres dados diferentes al aire se 
pueden observar los siguientes resultados: con el primer dado se cumplen 
144 lanzamientos, de los cuales en 36 ocasiones se obtiene la cara 1; en 
cambio con el segunda dado se realizan 100 lanzamientos obteniéndose 10 
veces el número 4 y 8 veces el número 3; en lo que respecta al tercer dado 
se producen 120 lanzamientos, con los siguientes resultados: en 25 
oportunidades se observa caer el número 1; el número 2 cae 21 
oportunidades; el 3 se produce en 15 ocasiones, 18 veces se observa caer el 
4: el número 5 se obtiene 24 veces y 17 veces el número 6. Realizar un 
ensayo de contrastación de hipótesis y comprobar cuál o cuáles de los 
dados están cargados, es decir, mal confeccionados, con una probabilidad de 


error del 5%. 


Algoritmo: 


Tema: verificar si los dados están cargados, es decir mal confeccionados. 


184 


Planteamiento de hipótesis: 

Hipótesis nula Ho: 

Modelo lógico — matemático: 

La proporción de frecuencias obtenidas en lanzamiento de tres datos no 
difieren entre las diferentes caras de los mismos. 

Modelo estadístico: 

Ho: X? =X; XX 

No existe diferencia significativa, el dado está bien confeccionado. 

Hipótesis alterna, alternativa o de investigación. 


Modelo lógico — matemático: 


La proporción de frecuencias obtenidas en el lanzamiento de tres dados 


difieren entre las diferentes caras de los mismos. 


Modelo estadístico: 


HOX AX SX FEA Z0 
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Si existe diferencia estadísticamente significativa, el dado está mal 


confeccionado, está cargado. 


Matriz Inicial para el primer dado 


Elk 


ENE 


Matriz para el dado número dos 


e p 
100 





no tres, no cuatro 


Total 





Matriz para el tercer dado 


cep p 





oep ppp 
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Nivel de significación 


œ =0,05 > 5% 
Grados de libertad 


gl.(d)=(4$-D  glld,) =(f-1)  gld,)=(c-1 
=2—1 =3 -1 =6-1 
-1 =2 = 

Zona de rechazo para Ho 

Para el dado 1 

R(Ho): X? > (3,84 

Para el dado 2 

R(Ho): X? >|5,991] 

Para el dado 3 


R(Ho): X? > |11,070| 
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Matriz de frecuencias observadas 


Para el dado 1 





Para el dado número dos 


CC 


Para el dado 3 





1 


Ñ 
Ol 
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COMA 0 


Matriz de frecuencias esperadas 





Para el dado 1 





P(Nol) = (144) 120 
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Para el dado 2 


a 


tres 16,67 


P(4)= (100) =16,67 





P(3)= = (100) = 16,67 


P(no3,no 4) = (100) = 66,66 


Para el dado 3 





20 


e 


Cálculo del valor para X * 


Para el primer dado 


x? Se y 


Fe 


_ (6-24) : (108-120) 


24 120 
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Codificando datos, se tiene: 





Para el segundo dado 


(10-16,67Y _ (816,67) _ (82-66.66)' 
16,67 16,67 66,66 


X?’ = 
= 267 +4,51 +3,52 


= 10,70 


Para el tercer dado 
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xy? -5-20 , 21-20 , (15-20 (18-20, (17-20, 
Í 20 20 20 20 20 
(24-20) 
20 


= 1,25 +0,05 + 1.25 + 0,2 + 0,45 + 0,8 
=4 


Decisión - conclusión 


Para el primer dado 


En vista que el valor del Chi cuadrado calculado, (7,2) es mayor que el valor 
del Chi cuadrado tabulado, (3,81), rechazamos la hipótesis nula, aceptando 
en consecuencias alterna, con una probabilidad de error del 5% y la prueba 
no paramétrica Chi cuadrado de Pearson; es decir estamos en capacidad de 
aseverar que si existe diferencia estadísticamente significativa entre el 
número de frecuencias esperadas del primer dado, lo cual implica que el 


mencionado dado, está defectuosamente confeccionado, está cargado. 
Para el segundo dado 


Como el valor que se obtiene para el X ? (10,70), es mayor o supera al valor 


del X ?(5,991), rechazamos la Ho, y en consecuencia se acepta la H, , con 
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una probabilidad de error del 5% y la prueba Chi cuadrado; vale decir que 
existiendo diferencia significativa, no se puede concluir si no que, el dado 
número 2, también está defectuosamente confeccionado, es decir está 


cargado. 


Para el tercer dado 


Dado que el valor absoluto que se obtiene para el X 2(4), es menor que el 


valor tabulado (11,70, aceptamos la Ho (o no tomamos ninguna decisión), 
rechazamos por lo tanto la hipótesis alterna, con una probabilidad de error 
del 5% y la prueba Chi cuadrado de Pearson; lo que equivale a decir que el 
dado número tres está bien confeccionado, no está cargado, por lo que 
cualquier diferencia que se observe entre las frecuencias observadas y las 
esperadas o bien se deben estrictamente al azar o son tan pequeñas que no 


ameritan tomárselas en cuenta. 


3.2. Prueba chi cuadrado con la corrección de yates por continuidad. 


Cuando en un ensayo de contrastación de hipótesis utilizando la prueba X?, 
en tablas contingencia 2 x 2 o tablas cuádruples, una cualquiera de las 
frecuencias esperadas, es pequeña (menos de 10) en una casilla o celda, el 


valor que se obtiene de la utilización de la fórmula aplicada anteriormente, 
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puede producir un valor numérico sobreestimado, en general; para reducir, o 
corregir tal subestimación de la prueba y obtener de esta forma un resultado 


más conservador, se aplica la llamada corrección de Yates por continuidad. 


Existen investigadores que aplican siempre la corrección de Yates, cuando 
se obtiene 1 grado de libertad sin tener en cuanta para nada el tamaño de la 
muestra; en todo caso debe observarse que el hecho cierto para la aplicación 
de la corrección de Yates, se refiere solamente cuando las frecuencias 
esperadas tienen en algún casillero, valores menores que 10, más no para 
las frecuencias observadas realmente en el curso de la investigación, las 


cuales pueden ser de cualquier tamaño. 


Básicamente la correlación de Yates, consiste en restar el valor 0,5 cuando 
las frecuencias observadas sean mayores que las frecuencias esperadas y 
sumar 0,5 en caso contrario, o lo que es lo mismo debemos reducir el valor 
absoluto (sin tomar en cuenta el signo) de cada frecuencia observada 


disminuida en su respectiva frecuencia esperad. 


En fórmula tenemos: 


(Fo, — Fe, -0,5) y 


XEL Fe, 
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Para el caso de la fórmula optativa de la prueba X*, en tratándose de tablas 
de contingencia 2 x 2 puede aplicarse la corrección de Yates en la siguiente 


forma: 


Se Nla..d —b.c|-N/2) 
-= (a+bc+d\b+d) 


Debe tenerse presente que la corrección de Yates y la fórmula 2 x 2 para 


calcular de X*, sólo debe aplicarse a tablas de contingencia cuádruple; por 


tanto no puede utilizarse para comparar a varios grupos 3 x 3 por ejemplo: 


De igual manera debe tenerse presente que el valor de X7 es obtenido 
elevando cantidades al cuadrado, en consecuencia nunca puede ser 


negativo; el valor más pequeño posible que puede obtenerse es cero y el 


mayor posible es infinito. Si X* = 0 interpretamos que la fo, concuerdan 


2 


exactamente con las fe | teóricas; a mayor valor de X<, mayor es la 


frecuencia entre las frecuencias esperadas y las frecuencias observadas. 


Si los valores no corregidos y corregidos de X7, nos conducen a tomar la 
misma conclusión, con respecto a una hipótesis, entonces no hay problema 
en la decisión; si los valores nos llevan a tomar diferentes conclusiones, el 


investigador deberá incrementar el tamaño de la muestra. 
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Sin embargo cuando los valores de la Fe son menores que 5 y en especial 
cuando se aproximan a 2, la corrección de Yates por continuidad no resulta 
demasiado buena, debiendo utilizarse otro procedimiento conocido con el 


nombre de método exacto de Fisher. 


Problema 1: Para resumir el procedimiento expuesto anteriormente, vamos 
a suponer que queremos estudiar el uso de la marihuana en estudiantes del 
bachillerato en relación a sus planes de ingreso a la universidad. Por la 
brevedad se suprimirán o quedarán enunciados a lo largo del proceso 
algunos pasos ( datos entregados en el cuadro respectivo) 

Tema: 


Uso de la marihuana en bachilleres, aspirantes a la universidad. 


Planteamiento de hipótesis 


Hipótesis nula, Ho 


Modelo lógico - matemático 


La proporción de fumadores de marihuana entre los estudiantes de 


bachillerato orientados hacia la universidad, es igual a la de los estudiantes 


que no piensan asistir a la universidad. 
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Modelo estadístico 

X SX S l xX 0 

No existe diferencia significativa, entre los fenómenos en estudio. 

Hipótesis alterna, alternativa o de investigación: H, 

Modelo lógico - matemático 

La proporción de fumadores de marihuana entre los estudiantes de 
bachillerato orientados hacia la universidad, no es igual a la de los 


estudiantes que no piensan asistir a la universidad. 


Matriz de datos (inicial) 
Uso de la marihuana, entre estudiantes orientados y no orientados hacia la 


universidad. 


Uso de la marihuana | Orientación 
Universidad no universidad 


fumadores 


no fumadores 





Nivel de significación 
œ =0,05 > 5% 
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Grados de libertad 


gl. =(c-1Mf-1) 


Zona de rechazo 
Ho: R (Ho): X? > [3,841| 


Matriz de frecuencia observadas: f. 


A oea T 


vmes o e 
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Matriz de frecuencias esperadas 


A A 


i 0 
r 


Cálculo del Chi Cuadrado 





(Fo — Fe 05) 


r 2 Fe 


(1s-11,67/-0,5)'  ((5-8,33/-0,5)  (l6-9,33|-0,5) 
11,67 "33 933 


(106,67 -0,5)' 
6,67 


- (633-057, (6333-05) (8,3305). (8,33-0,5) 
11,67 8,33 9,33 6,67 


(2,83) , (2,83) E (2,83) f (2,83) 
1167 833 933 6,67 














= 0,69+0,96+0,86+1,20 = 3,71 
Ejercicio para el maestrante 
1. Obtener el mismo valor, pero codificando datos 
2. Obtener el mismo valor aplicando la fórmula optativa 
Decisión conclusión 


Como el valor que se obtiene para X ? (3,71), es menor que el punto crítico 


(3,841) aceptamos la Ho (o bien no tomamos ninguna decisión) con una 
probabilidad de error del 5% y la prueba de significación Chi cuadrado de 
Pearson, con la corrección de Yates, es decir no existe relación entre la 
proporción de fumadores de fumadores de marihuana, entre estudiantes de 
bachillerato que van a ingresar a la universidad y los estudiantes cuyos 


planes no incluyen el ingreso a la universidad. 
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3.3. Prueba chi cuadrado: tablas de contingencia 


Uno de los empleados más frecuentes de la prueba X? , se encuentra en la 
llamada tabla de contingencia 2 x 2, llamada también tabla cuádrupla y que 


básicamente consiste en una matriz que tenga 2 filas y 2 columnas. 


Para el caso en que sólo intervengan el azar, las frecuencias esperadas se 
determinan asignando la mitad de las respuestas a cada uno de los dos 
grupos que intervienen o la parte proporcional cuando sean mayores los 
grupos. Es conveniente aclarar que no es necesario que los grupos sean de 


igual tamaño. 


De otro lado para el cálculo de los grados de libertad en forma general se lo 


hace mediante la siguiente expresión: 


g.l. = (f-1) (c-1) 


En donde: 
f = número de filas de la tabla de contingencia 


c = número de columnas de la tabla de contingencia 


En lo que respecta a la obtención de las frecuencias esperadas éstas, se 
calculan en base al producto de los totales marginales y este producto 
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dividido para el gran total; en forma general ilustraremos de la siguiente 


manera: 


Fo Fe 





aud 
T T 





= 
zZ 
= 
-|Z 


* totales marginales 


== gran total 


Para el caso específico de las tablas de contingencia de 2 x 2 el valor de 


X *, se lo puede deducir, en base a la siguiente fórmula optativa: 


ajb TA N (a.d = b.c y 
old i (a+b\c+da+c\b+d) 


Problema 1: Se tiene dos grupos de estudiantes universitarios, 


conjuntamente formados por 1200 estudiantes, al primer grupo formado por 


203 


60% del total se lo inicia en el proceso enseñanza - aprendizaje del idioma 
francés y luego de concluido este y realizadas las respectivas evaluaciones, 
se tiene que los 2/3 de este grupo que aprenden con el método de 
“audiovisuales”, leen correctamente el francés, en tanto que el 32% del 
segundo grupo, a quienes se les enseña con un método tradicional, “no leen”. 
Realizar un ensayo de contrastación y verificar la significancia entre la 
incidencia del método de enseñanza empleado y el número de estudiantes 


que aprenden a leer el idioma francés. 


Tema 

Relación o incidencia entre el método empleado en la enseñanza del francés 
y el número de estudiantes que lo aprenden 

Planteamiento de la hipótesis 

Hipótesis operacional 

Existe una relación estadísticamente significativa a un nivel del 95% de 
probabilidad y la prueba de significación Chi cuadrado, entre el método 
empleado en el proceso enseñanza - aprendizaje del francés y el número de 
alumnos que leen correctamente dicho idioma. 

Hipótesis Nula 

Modelo estadístico 


K =X SAX ¿-X%0 


C 
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No existe relación entre el método utilizado en la enseñanza del francés y el 


número de alumnos que lo aprenden. 
Hipótesis alterna, alternativa o de investigación 


Modelo estadístico 


X= Xx SOX" =X "0 
Si existe relación entre el método utilizado en la enseñanza del francés y el 


número de alumnos que lo aprenden. 


Nivel de significación 
œ =0,05 > 5% 


Matriz inicial 


TIPOS DE LECTURA 


“Leen correctamente” | “No lee correctamente | Total 


Grupo A | 2/3 60% 
G Exp. 


Grupo B 32% 
G. Testig. 


II IS E 
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Grados de libertad 


Zona de rechazo 


R (Ho): X? > [3,841] 


Matriz de frecuencia observada 


TIPOS DE LECTURA 


“Leen correctamente” | “No lee correctamente | Total 
240 


Grupo A | 480 720 
G Exp. 


GrupoB | 326,4 153.6 480 
G. Testig. 





Matriz de frecuencias esperadas 


TIPOS DE LECTURA 


“Leen correctamente” “No lee correctamente Total 


GrupoA | 483.84 236.16 720 
G Exp. 


Grupo B 322.56 157.44 480 
G. Testig. 


806.40 393.60 1200 





Cálculo del Chi cuadrado 


, — (480-483,84)” A (240-236,16)' E (236,4 — 322,56) 
483,84 236,16 322,56 


(153,6-157,44) 
157,44 


= 0,03 + 0,06 + 0,05 + 0,09 
= 0,23 


Decisión conclusión 


En vista que el valor numérico que se obtiene para el X ? (0,23), es menor al 
punto crítico o X 2 (3.841), aceptamos la hipótesis nula, (o en su defecto no 
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tomamos ninguna decisión), con una probabilidad de error del 5% la prueba 
de significación Chi cuadrado de Pearson; es decir, no existe ninguna 
relación o incidencia entre el método utilizado en el proceso de enseñanza — 
aprendizaje, del francés y el número de estudiantes que aprenden a leer 


correctamente; vale decir no se puede recomendar el uno o el otro método. 


NOTA: en vista de que la regla de decisión nos lleva a aceptar la hipótesis 


nula el problema concluye en este paso; no obstante si el valor numérico 


obtenido para X? calculado fuera mayor al punto crítico, entonces la regla de 


decisión nos conduce a rechazar la Ho y consecuentemente aceptar la H1, 
ello significa que sí existe asociación o incidencia entre las variables en 
estudio, por lo tanto en estos casos se requiere adicionalmente cumplir los 


pasos siguientes: 


Cálculo del coeficiente de contingencia 


2 
Y = J2 cuando se trata de tabla 2 x 2 
X 2 
== Cuando se trata de cualquier tabla de contingencia que no 
N+X 


sea2x2. 
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Cálculo del valor máximo del coeficiente de contingencia 


) |K ST. za , 
c máx. = |—— Siendo K el número de columnas o filas de 


La matriz si la matriz no tiene igual número 
De filas que columnas, siempre se toma el 
Valor más pequeño. 


Cálculo del coeficiente de atributos (V de Crammer), (con respecto a 1) 


Conclusiones complementarias 
2.10. Pruebas unidireccionales o a una cola 


En un proceso de investigación, al momento de operatizar la confrontación de 
una hipótesis, puede utilizarse según el caso uno de los dos extremos de la 
curva normal o ambos extremos. Para el primer caso decimos que la prueba 
es unidireccional o a una cola, en tanto que en el segundo caso se 


denominan a dos colas o bidireccionales. 
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La selección de una u otra modalidad de prueba, dependen de la pregunta 
que se espera responder en el experimento, claro está luego de un detenido 
y minucioso análisis del problema planteado, en todo caso, de existir dudas 


se puede optar por una prueba bidireccional. 


Es necesario señalar que para indicar que 2 métodos A y B son diferentes o 


difieren entre sí, hemos utilizado la siguiente nomenclatura: 


H1 :uA...ub 


Planteamiento que se utiliza cuando en la hipótesis de investigación no se 


concreta el sentido del cambio o la diferencia que se espera encontrar. En 


cambio si se diera el caso de que nos interesaría conocer si el método A es 


superior al B. 
Ho :uA = uB v :uA<ub 
H1 :uA>uB 


Lo que implica que está realizando un contraste unilateral. 
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Actividad de aplicación de pruebas unidireccionales 


Problema 1: En un experimento sobre percepción extrasensocial (PES), un 
individuo (sujeto) en una habitación fue preguntado sobre el color (rojo o 
azul) de una cata elegida por otro individuo e otra habitación de un conjunto 
de 50 cartas bien barajadas. Es desconocido ara el sujeto cuántas cartas 
azules o rojas hay en el lote. Si el sujeto identifica correctamente 32 cartas, 
determinar, si los resultados son significativos al nivel de significación de (a) 
0,05 y (b) 0,01 


Tema 


Determinación experimental sobre la percepción extrasensorial de un 


individuo. 


Planteamiento de hipótesis 


Hipótesis nula 


Modelo lógico 


La probabilidad de cartas elegidas correctamente es igual a 0,50 = 5% 
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Modelo matemático 


Ho: p => 0,5 el sujeto está simplemente adivinando. 


P = probabilidad de que el sujeto elija correctamente el color de una carta. 


Hipótesis alterna 


Modelo lógico matemático 


H1: P >0,5 el sujeto tiene (P.E.S) 


NOTA: El ensayo es unidireccional o una cola puesto que no está interesado 


en la facultad de obtener valores bajos, sino en la facultad de obtener 


aciertos numerosos. 


Nivel de significación 


oc=0,5 oc = 0.01 


Zona de rechazo 


Para : oc = 0,05 > 5% 
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Para :: œ = 0,01 > 1% 

R(H.):Z. 2 2,33 

Diseño muestral 

Población N= n= 50 cartas 

Cálculo de las medias de tendencia central 


U = NP => 50 (0,05)= 25 


Cálculo de las medias de dispersión 


= y Npq 
=,/50(0,5))(0,5) S=1-p 
. =354 = 1-0,5 
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Tipificación 


ulen 32-25 
~ 3,54 


Zc = 1,98 








Decisión - conclusión 


Para oc = 1% = como el valor de Zc (1,98) es menor que el punto crítico 
(2,33) aceptamos la Ho a este nivel; es decir el individuo no tiene P:E:S., está 
adivinando. 

Para oc = 5%, como el valor de Zc (1,98) es mayor que el punto crítico (1,69) 
aceptamos la hipótesis alterna a este nivel probabilístico; es decir, el 


individuo si tiene P:E:S., no está adivinando. 
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TABLAS: 


Distribución t de Student 


636.619 
31.598 
12.941 
8.610 
6.859 
5.959 
5.405 
5.041 
4.781 
4,587 
4,437 
4.318 
4.221 
4.140 
4.073 
4.015 
3.965 
3.922 
3.883 
3.850 
3.819 
3.792 
3.767 
3.745 
3.729 
3.707 
3.690 
3.674 
3.659 
3.646 
3:551 
3.460 
3.373 
3.291 


WO NN Qu Qq0gNA 





Fuente: este es un resumen de la tabla III de R.A Fisher y F. 
Yates. Statistical Tablas for Biological, Agricultural, and Medical 
Research publicado por Oliver and Boyd Ltd., Edinburgh. Con 
autorización de los autores y del editor 
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Distribución Chi cuadrado de Pearson 


CACA E E EP O 





Fuente: Resumen de: Fisher y F Yates, Statistical Tables for 
Biological, Agricultural, and Medical Research, 4% ed., Oliver € 
Boyd, edimburgo, Tabla V, con autorización de los autores y el 
editor. 
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Distribución Chi cuadrado de Pearson 


[A gd. para el numerador Í= .05 
a o AAA 


d 
e 
n 
0 
m 
i 
n 
a 
d 
0 
r 





Fuente: Fisher y F Yates, Statical Tables for Biological, Agricultural 
and Medical Research, 48 ed. Oliver & Boyd, Edimburgo, tabla V, 
con autorización de los autores y el editor. 
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Distribución Chi cuadrado de Pearson 


[EN gd. para el numerador {= .01 (ENTRE) 
— pep r CIO e p e eoo 


d 
e 
n 
0 
m 
i 
n 
a 
d 
0 
r 


DENTRO 
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